[發(fā)明專利]一種語音識別方法及裝置在審
| 申請?zhí)枺?/td> | 202011184868.3 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112002308A | 公開(公告)日: | 2020-11-27 |
| 發(fā)明(設計)人: | 宋鮮艷 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/26;G10L25/27 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 李娟 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 方法 裝置 | ||
本申請涉及計算機技術領域,尤其涉及一種語音識別方法及裝置,獲取待識別音頻幀序列;分別提取所述待識別音頻幀序列中各待識別音頻幀的聲學特征;根據(jù)所述各待識別音頻幀的聲學特征和已生成的解碼圖,對所述待識別音頻幀序列進行解碼,確定所述待識別音頻幀序列對應的詞語的識別結果,其中,所述解碼圖是至少根據(jù)聲學模型和發(fā)音詞典而生成的,所述聲學模型用于基于聲學特征以識別音素,所述發(fā)音詞典用于針對已知音素以識別輸出所述已知音素對應的詞語文本,并針對未知音素以識別輸出以所述未知音素的音素文本表示的詞語文本,這樣,可以自動發(fā)現(xiàn)新詞和不同發(fā)音,進而提高語音識別準確性。
技術領域
本申請涉及計算機技術領域,尤其涉及一種語音識別方法及裝置。
背景技術
在語音識別場景中,例如進行音頻轉錄時,需要對音頻進行解碼識別,通常在語音識別中,會預先構建語音識別的發(fā)音詞典,發(fā)音詞典是非常重要的一部分,只有詞語在發(fā)音詞典中有正確的發(fā)音,該詞語才能夠被正確識別,而實際中經常會出現(xiàn)一些新詞或者已有詞語的不同發(fā)音的情況,很容易識別錯誤,相關人員也無法及時了解出現(xiàn)錯誤的原因,從而會降低語音識別的準確性。
發(fā)明內容
本申請實施例提供一種語音識別方法及裝置,以能夠實現(xiàn)自動發(fā)現(xiàn)新詞和不同發(fā)音,進而提高語音識別準確性。
本申請實施例提供的具體技術方案如下:
本申請一個實施例中提供了一種語音識別方法,包括:
獲取待識別音頻幀序列;
分別提取所述待識別音頻幀序列中各待識別音頻幀的聲學特征;
根據(jù)所述各待識別音頻幀的聲學特征和已生成的解碼圖,對所述待識別音頻幀序列進行解碼,確定所述待識別音頻幀序列對應的詞語的識別結果,其中,所述解碼圖是至少根據(jù)聲學模型和發(fā)音詞典而生成的,所述聲學模型用于基于聲學特征以識別音素,所述發(fā)音詞典用于針對已知音素以識別輸出所述已知音素對應的詞語文本,并針對未知音素以識別輸出以所述未知音素的音素文本表示的詞語文本。
本申請另一個實施例中提供了一種語音識別裝置,包括:
獲取模塊,用于獲取待識別音頻幀序列;
提取模塊,用于分別提取所述待識別音頻幀序列中各待識別音頻幀的聲學特征;
解碼模塊,用于根據(jù)所述各待識別音頻幀的聲學特征和已生成的解碼圖,對所述待識別音頻幀序列進行解碼,確定所述待識別音頻幀序列對應的詞語的識別結果,其中,所述解碼圖是至少根據(jù)聲學模型和發(fā)音詞典而生成的,所述聲學模型用于基于聲學特征以識別音素,所述發(fā)音詞典用于針對已知音素以識別輸出所述已知音素對應的詞語文本,并針對未知音素以識別輸出以所述未知音素的音素文本表示的詞語文本。
本申請另一個實施例中提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述任一種語音識別方法的步驟。
本申請另一個實施例中提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一種語音識別方法的步驟。
本申請實施例中,獲取待識別音頻幀序列,并分別提取各待識別音頻幀的聲學特征,進而根據(jù)解碼圖,對待識別音頻幀序列進行解碼,確定待識別音頻幀序列的詞語的識別結果,其中,生成解碼圖的發(fā)音詞典,可以對已知音素以識別輸出已知音素對應的詞語文本,并針對未知音素以識別輸出以未知音素的音素文本表示的詞語文本,這樣,在出現(xiàn)新詞或新發(fā)音時,即出現(xiàn)了未知音素,可以直接輸出以音素文本序列表示的詞語文本序列,從而可以根據(jù)識別結果,自動發(fā)現(xiàn)待識別音頻幀序列中的新詞和已有詞語的新發(fā)音,并且還可以根據(jù)音素文本序列,進而可以不斷更新發(fā)音詞典,將新詞的音素文本序列和已有詞的新的音素文本序列,加入發(fā)音詞典中,因此可以提高語音識別準確性。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011184868.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:半導體隔離結構及其制作方法
- 下一篇:帶電設備的缺陷診斷方法及設備





