[發(fā)明專利]一種嬰兒哭聲檢測方法及裝置在審
| 申請?zhí)枺?/td> | 201810065385.8 | 申請日: | 2018-01-23 |
| 公開(公告)號: | CN110085216A | 公開(公告)日: | 2019-08-02 |
| 發(fā)明(設計)人: | 葛鳳培;張少甫;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02 |
| 代理公司: | 北京方安思達知識產(chǎn)權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音數(shù)據(jù) 嬰兒哭聲 測試語音 后驗概率 聲學模型 樣本訓練 語音類型 語音特征 感知線性預測 神經(jīng)網(wǎng)絡算法 方式獲取 檢測 分類 學習 | ||
1.一種嬰兒哭聲檢測方法,其特征在于,所述方法包括:
對預獲取的樣本訓練集中的語音數(shù)據(jù)進行感知線性預測系數(shù)PLP特征提取,獲取與所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征;
利用深度神經(jīng)網(wǎng)絡算法,對所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征進行訓練,獲取嬰兒哭聲的聲學模型;
對測試語音數(shù)據(jù)進行PLP特征提取后,帶入所述嬰兒哭聲的聲學模型中進行計算,獲取所述測試語音數(shù)據(jù)中每一幀語音數(shù)據(jù)對應的語音類型的后驗概率,其中,所述語音類型包括至少兩種,每一種語音類型對應一個后驗概率;
根據(jù)所述測試語音數(shù)據(jù)中每一幀語音數(shù)據(jù)對應的語音類型的后驗概率,確定所述測試語音數(shù)據(jù)是否為嬰兒哭聲對應的語音數(shù)據(jù)。
2.如權利要求1所述的嬰兒哭聲檢測方法,其特征在于,所述樣本數(shù)據(jù)中的語音數(shù)據(jù)包括嬰兒哭聲數(shù)據(jù)樣本和非嬰兒哭聲數(shù)據(jù)樣本,所述嬰兒哭聲數(shù)據(jù)樣本定義為正樣本,所述非嬰兒哭聲數(shù)據(jù)定義為負樣本,所述負樣本至少包括如下中的一類或多類:嬰兒發(fā)出的除所述嬰兒哭聲之外的聲音樣本、公共環(huán)境聲音樣本、以及靜音;所述對預獲取的樣本訓練集中的每一類語音數(shù)據(jù)分別進行感知線性預測系數(shù)PLP特征提取,獲取與所述樣本訓練集中的每一類語音數(shù)據(jù)分別對應的語音特征之前,所述方法還包括:
對所述正樣本語音數(shù)據(jù)和所述負樣本數(shù)據(jù)中的每一類語音數(shù)據(jù)分別添加與之對應的標簽信息。
3.如權利要求2所述的嬰兒哭聲檢測方法,其特征在于,所述對預獲取的樣本訓練集中的語音數(shù)據(jù)進行感知線性預測系數(shù)PLP特征提取,獲取與所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征,具體包括:
采用加窗處理分別提取所述樣本訓練集中的語音數(shù)據(jù)中每一幀數(shù)據(jù)的13維度的PLP特征;
在所述13維度的PLP特征的基礎上添加1維度能量特征和1維度極品置信度特征,構成15維度特征;
將所述15維度特征進行三階差分處理,獲取60維度的語音特征。
4.如權利要求3所述的嬰兒哭聲檢測方法,其特征在于,所述語音特征幀長25ms,窗移為10ms。
5.如權利要求2-4任一項所述的嬰兒哭聲檢測方法,其特征在于,所述至少兩種語音類型中的語音類型與所述樣本數(shù)據(jù)中的語音數(shù)據(jù)類型相同;所述根據(jù)所述測試語音數(shù)據(jù)中每一幀語音數(shù)據(jù)對應的語音類型的后驗概率,確定所述測試語音數(shù)據(jù)是否為嬰兒哭聲對應的語音數(shù)據(jù),具體包括:
選取所述測試語音數(shù)據(jù)中第一幀語音數(shù)據(jù)對應的至少兩種語音類型的后驗概率中概率值最大的語音類型,作為所述第一幀語音數(shù)據(jù)的語音類型;
統(tǒng)計所述測試語音數(shù)據(jù)中每一種語音類型對應的數(shù)量值;
當?shù)谝环N語音類型對應的語音數(shù)量與所述測試語音數(shù)據(jù)總幀數(shù)之間的比值大于預設閾值時,確定所述測試語音數(shù)據(jù)的語音類型為第一種語音類型,其中,所述第一幀數(shù)據(jù)為所述測試語音數(shù)據(jù)中所有幀語音數(shù)據(jù)中的任一幀;所述第一種語音類型為所述至少兩種語音類型中的任一種,且所述第一種語音類型的數(shù)量值為所有語音類型中每一種語音類型分別對應的數(shù)量值中的最大值。
6.一種嬰兒哭聲檢測裝置,其特征在于,所述裝置包括:
特征提取單元,用于對預獲取的樣本訓練集中的語音數(shù)據(jù)進行感知線性預測系數(shù)PLP特征提取,獲取與所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征;
聲學模型建立單元,用于利用深度神經(jīng)網(wǎng)絡算法,對所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征進行訓練,獲取嬰兒哭聲的聲學模型;
處理單元,用于對測試語音數(shù)據(jù)進行PLP特征提取后,帶入所述嬰兒哭聲的聲學模型中進行計算,獲取所述測試語音數(shù)據(jù)中每一幀語音數(shù)據(jù)對應的語音類型的后驗概率,其中,所述語音類型包括至少兩種,每一種語音類型對應一個后驗概率;
根據(jù)所述測試語音數(shù)據(jù)中每一幀語音數(shù)據(jù)對應的語音類型的后驗概率,確定所述測試語音數(shù)據(jù)是否為嬰兒哭聲對應的語音數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經(jīng)中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810065385.8/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





