[發明專利]智能識別嬰兒哭聲類別的方法及裝置有效
| 申請號: | 202110222720.2 | 申請日: | 2021-02-26 |
| 公開(公告)號: | CN112967733B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 陳輝;張智;謝鵬;雷奇文;艾偉;胡國湖 | 申請(專利權)人: | 武漢星巡智能科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G06F18/25;G06N3/0442;G06N3/08;G10L25/03;G10L25/18;G10L25/24;G10L25/30 |
| 代理公司: | 成都恪睿信專利代理事務所(普通合伙) 51303 | 代理人: | 陳興強 |
| 地址: | 430000 湖北省武漢市洪山區*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 智能 識別 嬰兒 哭聲 類別 方法 裝置 | ||
1.一種智能識別嬰兒哭聲類別的方法,其特征在于,所述方法包括:
S20:獲取嬰兒啼哭時聲音的音頻特征和與嬰兒聲帶振動相對應的振動頻譜;
S21:對所述音頻特征和所述振動頻譜進行特征融合,輸出融合后的融合特征;
S22:將所述融合特征輸入預置的神經網絡,輸出與哭泣狀態對應的編碼特征向量;
S23:根據所述編碼特征向量,輸出所述哭泣狀態的哭聲類別;
其中,所述S21包括:
S211:對各幀音頻的MFCC特征和各電信號片段的所述振動頻譜進行主成分分析法降維處理,輸出降維后的音頻信號中各幀音頻的MFCC特征和各所述電信號片段;
S212:對降維后的各幀音頻的所述MFCC特征與各幀音頻對應的電信號的所述振動頻譜進行特征融合,得到各所述融合特征;
其中,所述S212包括:
S2121:獲取所述振動頻譜的頻率變化閾值,以及與各幀音頻相對應的振動頻譜的振動頻率;
S2122:利用所述頻率變化閾值對各所述振動頻率進行分段,得到多個連續的頻率段;
S2123:將各所述頻率段對應的振動頻譜與各頻率段分別對應的所有幀音頻的MFCC特征進行特征融合,得到與各頻率段對應的所述融合特征。
2.根據權利要求1所述的智能識別嬰兒哭聲類別的方法,其特征在于,所述S20包括:
S201:獲取嬰兒哭聲對應的音頻信號;
S202:利用梅爾濾波器對所述音頻信號進行特征提取,得到所述音頻特征;
其中,所述音頻特征為梅爾頻率倒譜系數MFCC特征。
3.根據權利要求2所述的智能識別嬰兒哭聲類別的方法,其特征在于,所述S20包括:
S203:獲取嬰兒啼哭時與聲帶振動相對應的電信號;
S204:根據所述音頻信號中各幀音頻的時間長度對所述電信號進行分段,得到多個連續的電信號片段;
S205:對多個連續的所述電信號片段進行短時傅里葉變換,輸出所述振動頻譜。
4.根據權利要求1所述的智能識別嬰兒哭聲類別的方法,其特征在于,所述S22包括:
S221:獲取所述神經網絡的特征矩陣容量;
S222:將所述融合特征與卷積核進行卷積計算,輸出與各所述電信號片段對應的編碼特征向量;
S223:根據所述特征矩陣容量和各所述編碼特征向量,得到當前特征矩陣中的各所述編碼特征向量。
5.根據權利要求1所述的智能識別嬰兒哭聲類別的方法,其特征在于,所述S23包括:
S231:獲取哭聲類別閾值;
S232:對比當前所述編碼特征向量對應的第一哭聲類別和前一所述編碼特征向量對應的第二哭聲類別,輸出類別對比結果;
S233:若所述對比結果為相同,則進行計數加1;否則,計數清0;
S234:當計數的值等于所述哭聲類別閾值時,輸出所述哭聲類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢星巡智能科技有限公司,未經武漢星巡智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110222720.2/1.html,轉載請聲明來源鉆瓜專利網。





