[發(fā)明專利]一種嬰兒哭聲檢測方法及裝置在審

申請?zhí)枺?/td>	201810065385.8	申請日：	2018-01-23
公開（公告）號：	CN110085216A	公開（公告）日：	2019-08-02
發(fā)明（設計）人：	葛鳳培;張少甫;顏永紅	申請（專利權）人：	中國科學院聲學研究所;北京中科信利技術有限公司
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/02
代理公司：	北京方安思達知識產(chǎn)權代理有限公司 11472	代理人：	陳琳琳;楊青
地址：	100190 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音數(shù)據(jù) 嬰兒哭聲測試語音后驗概率聲學模型樣本訓練語音類型語音特征感知線性預測神經(jīng)網(wǎng)絡算法方式獲取檢測分類學習
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種嬰兒哭聲檢測方法，其特征在于，所述方法包括：

對預獲取的樣本訓練集中的語音數(shù)據(jù)進行感知線性預測系數(shù)PLP特征提取,獲取與所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征；

利用深度神經(jīng)網(wǎng)絡算法，對所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征進行訓練，獲取嬰兒哭聲的聲學模型；

對測試語音數(shù)據(jù)進行PLP特征提取后，帶入所述嬰兒哭聲的聲學模型中進行計算，獲取所述測試語音數(shù)據(jù)中每一幀語音數(shù)據(jù)對應的語音類型的后驗概率，其中，所述語音類型包括至少兩種，每一種語音類型對應一個后驗概率；

根據(jù)所述測試語音數(shù)據(jù)中每一幀語音數(shù)據(jù)對應的語音類型的后驗概率，確定所述測試語音數(shù)據(jù)是否為嬰兒哭聲對應的語音數(shù)據(jù)。

2.如權利要求1所述的嬰兒哭聲檢測方法，其特征在于，所述樣本數(shù)據(jù)中的語音數(shù)據(jù)包括嬰兒哭聲數(shù)據(jù)樣本和非嬰兒哭聲數(shù)據(jù)樣本，所述嬰兒哭聲數(shù)據(jù)樣本定義為正樣本，所述非嬰兒哭聲數(shù)據(jù)定義為負樣本，所述負樣本至少包括如下中的一類或多類：嬰兒發(fā)出的除所述嬰兒哭聲之外的聲音樣本、公共環(huán)境聲音樣本、以及靜音；所述對預獲取的樣本訓練集中的每一類語音數(shù)據(jù)分別進行感知線性預測系數(shù)PLP特征提取,獲取與所述樣本訓練集中的每一類語音數(shù)據(jù)分別對應的語音特征之前，所述方法還包括：

對所述正樣本語音數(shù)據(jù)和所述負樣本數(shù)據(jù)中的每一類語音數(shù)據(jù)分別添加與之對應的標簽信息。

3.如權利要求2所述的嬰兒哭聲檢測方法，其特征在于，所述對預獲取的樣本訓練集中的語音數(shù)據(jù)進行感知線性預測系數(shù)PLP特征提取,獲取與所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征，具體包括：

采用加窗處理分別提取所述樣本訓練集中的語音數(shù)據(jù)中每一幀數(shù)據(jù)的13維度的PLP特征；

在所述13維度的PLP特征的基礎上添加1維度能量特征和1維度極品置信度特征，構成15維度特征；

將所述15維度特征進行三階差分處理，獲取60維度的語音特征。

4.如權利要求3所述的嬰兒哭聲檢測方法，其特征在于，所述語音特征幀長25ms，窗移為10ms。

5.如權利要求2-4任一項所述的嬰兒哭聲檢測方法，其特征在于，所述至少兩種語音類型中的語音類型與所述樣本數(shù)據(jù)中的語音數(shù)據(jù)類型相同；所述根據(jù)所述測試語音數(shù)據(jù)中每一幀語音數(shù)據(jù)對應的語音類型的后驗概率，確定所述測試語音數(shù)據(jù)是否為嬰兒哭聲對應的語音數(shù)據(jù)，具體包括：

選取所述測試語音數(shù)據(jù)中第一幀語音數(shù)據(jù)對應的至少兩種語音類型的后驗概率中概率值最大的語音類型，作為所述第一幀語音數(shù)據(jù)的語音類型；

統(tǒng)計所述測試語音數(shù)據(jù)中每一種語音類型對應的數(shù)量值；

當?shù)谝环N語音類型對應的語音數(shù)量與所述測試語音數(shù)據(jù)總幀數(shù)之間的比值大于預設閾值時，確定所述測試語音數(shù)據(jù)的語音類型為第一種語音類型，其中，所述第一幀數(shù)據(jù)為所述測試語音數(shù)據(jù)中所有幀語音數(shù)據(jù)中的任一幀；所述第一種語音類型為所述至少兩種語音類型中的任一種，且所述第一種語音類型的數(shù)量值為所有語音類型中每一種語音類型分別對應的數(shù)量值中的最大值。

6.一種嬰兒哭聲檢測裝置，其特征在于，所述裝置包括：

特征提取單元，用于對預獲取的樣本訓練集中的語音數(shù)據(jù)進行感知線性預測系數(shù)PLP特征提取,獲取與所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征；

聲學模型建立單元，用于利用深度神經(jīng)網(wǎng)絡算法，對所述樣本訓練集中的語音數(shù)據(jù)對應的語音特征進行訓練，獲取嬰兒哭聲的聲學模型；

處理單元，用于對測試語音數(shù)據(jù)進行PLP特征提取后，帶入所述嬰兒哭聲的聲學模型中進行計算，獲取所述測試語音數(shù)據(jù)中每一幀語音數(shù)據(jù)對應的語音類型的后驗概率，其中，所述語音類型包括至少兩種，每一種語音類型對應一個后驗概率；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司，未經(jīng)中國科學院聲學研究所;北京中科信利技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810065385.8/1.html，轉載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于生成對抗網(wǎng)絡的語言模型數(shù)據(jù)增強方法
下一篇：語音導航方法、裝置及終端設備

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提??；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓練語音識別系統(tǒng)，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】