[發明專利]語音識別方法、系統、計算機設備及計算機可讀存儲介質有效
| 申請號: | 201711031665.9 | 申請日: | 2017-10-27 |
| 公開(公告)號: | CN107871499B | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 秦浩然;肖全之 | 申請(專利權)人: | 珠海市杰理科技股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/05;G10L15/08;G10L15/26;G10L25/69 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 黃曉慶 |
| 地址: | 519085 廣東省珠海市吉*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 系統 計算機 設備 可讀 存儲 介質 | ||
本申請涉及一種語音識別方法、系統、計算機設備及存儲介質。包括將語音信號特征序列輸入單音素搜索網絡和集內詞搜索網絡進行同步解碼;獲取集內詞搜索網絡解碼得到的集內詞輸出狀態分數;當集內詞輸出狀態分數滿足預設條件時,獲取單音素搜索網絡與集內詞搜索網絡同步解碼的置信度;根據置信度選擇對應的解碼路徑,輸出得到語音識別結果。上述語音識別方法、系統、計算機設備及計算機可讀存儲介質,通過同時將語音信號特征序列輸入單音素搜索網絡和集內詞搜索網絡進行解碼傳遞,能有效地實現集內詞識別和集外詞拒識別,確保識別準確率;再根據置信度選擇對應的解碼路徑得到語音識別結果,可以進一步提高語音識別準確度。
技術領域
本申請涉及語音識別技術領域,特別是涉及一種語音識別方法、系統、計算機設備及計算機可讀存儲介質。
背景技術
隨著計算機技術的快速發展及應用,進一步實現與機器進行語音交流是人工智能和機器學習應用的一個重要方向,語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術。目前語音識別的應用可主要分為兩個方向:一個是大詞匯連續語音識別系統,它被應用于手機助理,語音聽寫等;另外一個是向小詞匯便攜型語音產品發展,如智能玩具,家電遙控等。
其中第二種應用中的小詞匯語音識別系統已逐漸開始在手持終端、家電等領域得到應用,因為其面向的是小詞匯,所以相對于第一種系統除了噪聲干擾帶來的影響外還要考慮大量的集外詞的干擾,即要保證集內詞正確識別的同時還要拒絕集外詞。而傳統的小詞匯語音識別系統的產品使用效果仍不盡如人意,如無法有效地實現集內命令詞識別和集外詞拒識別,語音識別準確度低。
發明內容
基于此,有必要針對上述問題,提供一種能有效地實現集內詞識別和集外詞拒識別,提高識別準確率的語音識別方法、系統、計算機設備及計算機可讀存儲介質。
一種語音識別方法,包括:
將語音信號特征序列分別輸入單音素搜索網絡和集內詞搜索網絡,并進行同步解碼;
獲取所述同步解碼得到的集內詞輸出狀態分數;
當所述集內詞輸出狀態分數滿足預設條件時,獲取所述單音素搜索網絡與所述集內詞搜索網絡同步解碼的置信度;
根據所述置信度選擇對應的解碼路徑,輸出得到語音識別結果。
在一個實施例中,所述將語音信號特征序列分別輸入單音素搜索網絡和集內詞搜索網絡,并進行同步解碼的步驟包括:
將當前幀語音信號特征序列輸入所述單音素搜索網絡,得到第一輸出狀態分數;
當所述第一輸出狀態分數大于第一預設閾值時,將下一幀語音信號特征序列分別輸入所述單音素搜索網絡和所述集內詞搜索網絡進行同步解碼。
在一個實施例中,所述將當前幀語音信號特征序列輸入所述單音素搜索網絡,得到第一輸出狀態分數的步驟包括:
將所述當前幀語音信號特征序列輸入所述單音素搜索網絡;
獲取所述當前幀語音信號特征序列與所述單音素搜索網絡基元的聯合概率;
將所述聯合概率中的最大值作為所述第一輸出狀態分數。
在一個實施例中,所述當所述集內詞輸出狀態分數滿足預設條件時,獲取所述單音素搜索網絡與所述集內詞搜索網絡同步解碼的置信度的步驟包括:
當所述集內詞輸出狀態分數滿足所述預設條件時,獲取所述單音素搜索網絡同步解碼的第一傳遞分數和所述集內詞搜索網絡同步解碼的第二傳遞分數;
根據所述第一傳遞分數和所述第二傳遞分數,得到所述置信度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海市杰理科技股份有限公司,未經珠海市杰理科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711031665.9/2.html,轉載請聲明來源鉆瓜專利網。





