[發明專利]一種語音端點檢測和喚醒方法及裝置有效
| 申請號: | 201711161966.3 | 申請日: | 2017-11-21 |
| 公開(公告)號: | CN108010515B | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 尹首一;宋丹丹;歐陽鵬;劉雷波;魏少軍 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/16;G10L15/22;G10L25/87 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;賈磊 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 端點 檢測 喚醒 方法 裝置 | ||
1.一種語音端點檢測和喚醒方法,其特征在于,包括:
獲取語音端點檢測數據和喚醒數據,并對所述語音端點檢測數據和喚醒數據進行Fbank特征提取,得到語音Fbank特征數據;
將所述語音Fbank特征數據輸入到二值化神經網絡模型,得到二值化神經網絡輸出結果數據,其中,所述二值化神經網絡模型中的正則化層僅有移位操作;
根據預先設置的后端評判策略,對所述二值化神經網絡輸出結果數據進行處理,確定語音端點檢測數據的語音起始位置和語音結束位置,并檢測喚醒數據中的喚醒詞數據。
2.根據權利要求1所述的語音端點檢測和喚醒方法,其特征在于,獲取語音端點檢測數據和喚醒數據,并對所述語音端點檢測數據和喚醒數據進行Fbank特征提取,得到語音Fbank特征數據,包括:
根據預先設置的采樣頻率,在預先設置的采樣環境中采集獲取語音端點檢測數據和喚醒數據;
對所述語音端點檢測數據采用26維Fbank特征提取,并加一階和二階偏導,得到語音端點檢測Fbank特征數據;
對所述喚醒數據采用40維Fbank特征提取,并加一階和二階偏導,得到喚醒Fbank特征數據。
3.根據權利要求2所述的語音端點檢測和喚醒方法,其特征在于,將所述語音Fbank特征數據輸入到二值化神經網絡模型,得到二值化神經網絡輸出結果數據,包括:
將所述語音端點檢測Fbank特征數據輸入到由2層CNN和1層DNN組成的二值化神經網絡模型,從模型最后一層的softmax層得到第一模型輸出結果;
將所述喚醒Fbank特征數據輸入到由2層CNN和4層DNN組成的二值化神經網絡模型,從模型最后一層的softmax層得到第二模型輸出結果。
4.根據權利要求3所述的語音端點檢測和喚醒方法,其特征在于,根據預先設置的后端評判策略,對所述二值化神經網絡輸出結果數據進行處理,確定語音端點檢測數據的語音起始位置和語音結束位置,包括:
對所述第一模型輸出結果進行后驗平滑處理得到各幀語音的聲母和韻母合后的非靜音的概率pi;
若從一第一目標幀語音開始連續m幀語音的概率pj均大于預先設置的非靜音的閾值,則確定所述第一目標幀語音為語音端點檢測數據的語音起始位置;所述m為預先設置的數值;
若從一第二目標幀語音開始連續n幀語音的概率pj均小于預先設置的靜音的閾值,則確定所述第二目標幀語音為語音端點檢測數據的語音結束位置;所述n為預先設置的數值。
5.根據權利要求3所述的語音端點檢測和喚醒方法,其特征在于,根據預先設置的后端評判策略,對所述二值化神經網絡輸出結果數據進行處理,檢測喚醒數據中的喚醒詞數據,包括:
對所述第二模型輸出結果進行后驗平滑處理得到各幀語音中與喚醒詞中各關鍵字對應的關鍵字概率;
若從一第一目標幀語音開始連續m幀語音的一目標關鍵字的關鍵字概率大于目標關鍵字的預設閾值,則確定所述第二模型輸出結果中包含所述目標關鍵字;所述m為預先設置的數值。
6.一種語音端點檢測和喚醒裝置,其特征在于,包括:
特征提取單元,用于獲取語音端點檢測數據和喚醒數據,并對所述語音端點檢測數據和喚醒數據進行Fbank特征提取,得到語音Fbank特征數據;
二值化神經網絡處理單元,用于將所述語音Fbank特征數據輸入到二值化神經網絡模型,得到二值化神經網絡輸出結果數據,其中,所述二值化神經網絡模型中的正則化層僅有移位操作;
語音端點檢測和喚醒處理單元,用于根據預先設置的后端評判策略,對所述二值化神經網絡輸出結果數據進行處理,確定語音端點檢測數據的語音起始位置和語音結束位置,并檢測喚醒數據中的喚醒詞數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711161966.3/1.html,轉載請聲明來源鉆瓜專利網。





