[發明專利]喚醒詞識別的方法、裝置及存儲介質有效
| 申請號: | 202010305090.0 | 申請日: | 2020-04-17 |
| 公開(公告)號: | CN111653274B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 靳源;馮大航;陳孝良 | 申請(專利權)人: | 北京聲智科技有限公司 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/06 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 邢少真 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 喚醒 識別 方法 裝置 存儲 介質 | ||
1.一種喚醒詞識別的方法,其特征在于,所述方法包括:
獲取目標語音數據,所述目標語音數據用來指示需要進行喚醒詞識別的語音數據;
通過喚醒詞識別模型對所述目標語音數據進行處理,獲得處理結果;所述喚醒詞識別模型是通過樣本數據和所述樣本數據對應的標簽訓練獲得的機器學習模型;所述樣本數據至少包括喚醒詞樣本數據和非喚醒詞樣本數據;所述樣本數據對應的標簽包括所述喚醒詞樣本數據對應的軟標簽以及所述非喚醒詞樣本數據對應的硬標簽;所述喚醒詞樣本數據對應的軟標簽是通過計算確定的概率分布;所述處理結果是所述樣本數據通過更新后的所述喚醒詞識別模型獲得的識別情況的概率值;
根據所述處理結果,確定所述目標語音數據的識別結果;
所述通過喚醒詞識別模型對所述目標語音數據進行處理,獲得處理結果之前,還包括:
根據語音端點檢測VAD,獲得所述喚醒詞樣本數據的數據長度;
根據所述數據長度,確定所述喚醒詞樣本數據的預設均值和預設方差;
確定所述喚醒詞樣本數據的識別情況對應的概率分布為所述喚醒詞樣本數據對應的軟標簽;
其中,所述喚醒詞樣本數據的概率分布設置為正態分布。
2.根據權利要求1所述的方法,其特征在于,所述通過喚醒詞識別模型對所述目標語音數據進行處理,獲得處理結果之前,還包括:
將所述非喚醒詞樣本數據的所述標簽確定為固定概率的硬標簽,所述固定概率用來指示所述非喚醒詞樣本數據為喚醒詞的概率為0,所述非喚醒詞樣本數據為非喚醒詞的概率為1;
根據所述喚醒詞樣本數據、所述喚醒詞樣本數據對應的軟標簽以及所述非喚醒詞樣本數據對應的硬標簽,對所述喚醒詞識別模型進行更新。
3.根據權利要求2所述的方法,其特征在于,所述根據所述喚醒詞樣本數據、所述喚醒詞樣本數據對應的軟標簽以及所述非喚醒詞樣本數據對應的硬標簽,對所述喚醒詞識別模型進行更新,包括:
將所述喚醒詞樣本數據通過所述喚醒詞識別模型,確定所述喚醒詞樣本數據識別情況對應的概率值;
對所述喚醒詞樣本數據識別情況對應的概率值,以及所述喚醒詞樣本數據對應的標簽進行交叉熵計算,獲得損失函數值;
根據所述損失函數值,通過反向傳播原理對所述喚醒詞識別模型中的模型參數進行更新。
4.根據權利要求1、3中任一所述的方法,其特征在于,所述識別情況至少包括識別為喚醒詞的情況或者識別為非喚醒詞的情況。
5.根據權利要求1所述的方法,其特征在于,所述通過喚醒詞識別模型對所述目標語音數據進行處理,獲得處理結果,包括:
將所述目標語音數據按照預設的數據長度依次輸入到所述喚醒詞識別模型中;
獲得所述目標語音數據中包含目標喚醒詞的概率值和不包含目標喚醒詞的概率值作為處理結果。
6.根據權利要求5所述的方法,其特征在于,所述根據所述處理結果,確定所述目標語音數據的識別結果,包括:
將所述包含目標喚醒詞的概率值與判定閾值進行比較;
響應于所述包含目標喚醒詞的概率值大于等于所述判定閾值,確定所述識別結果為所述目標語音數據為喚醒詞;
響應于所述包含目標喚醒詞的概率值小于所述判定閾值,確定所述識別結果為所述目標語音數據為非喚醒詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聲智科技有限公司,未經北京聲智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010305090.0/1.html,轉載請聲明來源鉆瓜專利網。





