[發明專利]智能識別嬰兒哭聲類別的方法及裝置有效
| 申請號: | 202110222720.2 | 申請日: | 2021-02-26 |
| 公開(公告)號: | CN112967733B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 陳輝;張智;謝鵬;雷奇文;艾偉;胡國湖 | 申請(專利權)人: | 武漢星巡智能科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G06F18/25;G06N3/0442;G06N3/08;G10L25/03;G10L25/18;G10L25/24;G10L25/30 |
| 代理公司: | 成都恪睿信專利代理事務所(普通合伙) 51303 | 代理人: | 陳興強 |
| 地址: | 430000 湖北省武漢市洪山區*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 智能 識別 嬰兒 哭聲 類別 方法 裝置 | ||
本發明屬于語音識別技術領域,解決了通過語音識別判斷嬰兒哭聲,存在準確性低的技術問題,提供了一種智能識別嬰兒哭聲類別的方法和裝置。該方法包括:至少獲取嬰兒啼哭時聲音的音頻特征和與嬰兒聲帶振動相對應的振動頻譜;對所述音頻特征和所述振動頻譜進行特征融合,輸出融合后的融合特征;將所述融合特征輸入預置的神經網絡,輸出與哭泣狀態對應的編碼特征向量;根據所述編碼特征向量,輸出所述哭泣狀態的哭聲類別。本發明還包括用于執行上述方法的裝置。本發明利用嬰兒聲帶振動的振動頻譜結合哭聲的音頻特征判斷嬰兒哭聲類型;能夠準確檢測嬰兒個體差異造成的發聲差異,提高嬰兒哭聲類別識別的準確性。
技術領域
本發明涉及語音識別技術領域,尤其涉及一種智能識別嬰兒哭聲類別的方法及裝置。
背景技術
隨著語音識別技術的發展,將語音識別應用到越來越多的領域,比如識別嬰兒各種類別的哭聲,以確定嬰兒對應的各種狀況。針對嬰兒哭聲的識別,一般采用的方法為:采用語音采集技術采集哭聲,將采集得到的哭聲與已設置的嬰兒哭聲相匹配,確定是否為嬰兒哭聲,再將確認的嬰兒哭聲與已設置的哭聲類別相匹配,匹配成功后,就可以確認采集的哭聲對應的哭聲類別,最終確認嬰兒哭聲的具體含義。但是,由于嬰兒個體之間存在差異,相同哭聲表達的不同的需求,特別是在嬰兒發聲異常時,如聲音沙啞、有異物,此時采集的音頻信息明顯無法判斷出嬰兒的哭聲類別;因此,采用語音識別技術識別嬰兒哭聲時,準確度和精準度不高,導致用戶體驗度不高。
發明內容
有鑒于此,本發明實施例提供了一種智能識別嬰兒哭聲類別的方法及裝置,用以解決通過語音識別判斷嬰兒哭聲,存在準確性低的技術問題。
本發明采用的技術方案是:
本發明提供了一種智能識別嬰兒哭聲類別的方法,所述方法包括:
S20:至少獲取嬰兒啼哭時聲音的音頻特征和與嬰兒聲帶振動相對應的振動頻譜;
S21:對所述音頻特征和所述振動頻譜進行特征融合,輸出融合后的融合特征;
S22:將所述融合特征輸入預置的神經網絡,輸出與哭泣狀態對應的編碼特征向量;
S23:根據所述編碼特征向量,輸出所述哭泣狀態的哭聲類別。
優選地,所述S20包括:
S201:獲取嬰兒哭聲對應的音頻信號;
S202:利用梅爾濾波器對所述音頻信號進行特征提取,得到所述音頻特征;
其中,所述音頻特征為梅爾頻率倒譜系數MFCC特征。
優選地,所述S20包括:
S203:獲取嬰兒啼哭時與聲帶振動相對應的電信號;
S204:根據所述音頻信號中各幀音頻的時間長度對所述電信號進行分段,得到多個連續的電信號片段;
S205:對多個連續的所述電信號片段進行短時傅里葉變換,輸出所述振動頻譜。
優選地,所述S21包括:
S211:對各幀音頻的MFCC特征和各所述電信號片段的所述振動頻譜進行主成分分析法降維處理,輸出降維后的所述音頻信號中各幀音頻的MFCC特征和各所述電信號片段;
S212:對降維后的各幀音頻的所述MFCC特征與各幀音頻對應的電信號的所述振動頻譜進行特征融合,得到各所述融合特征。
優選地,所述S212包括:
S2121:獲取所述振動頻譜的頻率變化閾值,以及與各幀音頻相對應的振動頻譜的振動頻率;
S2122:利用所述頻率變化閾值對各所述振動頻率進行分段,得到多個連續的頻率段;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢星巡智能科技有限公司,未經武漢星巡智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110222720.2/2.html,轉載請聲明來源鉆瓜專利網。





