[發(fā)明專利]一種語音識別方法及裝置在審

申請?zhí)枺?/td>	202011184868.3	申請日：	2020-10-30
公開（公告）號：	CN112002308A	公開（公告）日：	2020-11-27
發(fā)明（設(shè)計）人：	宋鮮艷	申請（專利權(quán)）人：	騰訊科技（深圳）有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/26;G10L25/27
代理公司：	北京同達信恒知識產(chǎn)權(quán)代理有限公司 11291	代理人：	李娟
地址：	518044 廣東省深圳***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種語音識別方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種語音識別方法，其特征在于，包括：

獲取待識別音頻幀序列；

分別提取所述待識別音頻幀序列中各待識別音頻幀的聲學(xué)特征；

根據(jù)所述各待識別音頻幀的聲學(xué)特征和已生成的解碼圖，對所述待識別音頻幀序列進行解碼，確定所述待識別音頻幀序列對應(yīng)的詞語的識別結(jié)果，其中，所述解碼圖是至少根據(jù)聲學(xué)模型和發(fā)音詞典而生成的，所述聲學(xué)模型用于基于聲學(xué)特征以識別音素，所述發(fā)音詞典用于針對已知音素以識別輸出所述已知音素對應(yīng)的詞語文本，并針對未知音素以識別輸出以所述未知音素的音素文本表示的詞語文本。

2.如權(quán)利要求1所述的方法，其特征在于，進一步包括：

獲取語音樣本集，并根據(jù)所述語音樣本集，訓(xùn)練獲得所述聲學(xué)模型，以及生成所述聲學(xué)模型對應(yīng)的聲學(xué)模型有限狀態(tài)轉(zhuǎn)換器，其中，所述語音樣本集中的語音樣本表征攜帶音素標注的語音；

獲取發(fā)音詞典，并根據(jù)所述發(fā)音詞典中詞語文本與音素序列的對應(yīng)關(guān)系，生成所述發(fā)音詞典對應(yīng)的發(fā)音詞典有限狀態(tài)轉(zhuǎn)換器，所述發(fā)音詞典有限狀態(tài)轉(zhuǎn)換器表征各個詞語文本對應(yīng)的音素序列的狀態(tài)轉(zhuǎn)移概率；

根據(jù)所述聲學(xué)模型有限狀態(tài)轉(zhuǎn)換器和所述發(fā)音詞典有限狀態(tài)轉(zhuǎn)換器，生成所述解碼圖。

3.如權(quán)利要求2所述的方法，其特征在于，進一步包括：

獲得句子文本樣本集，并根據(jù)所述句子文本樣本集，訓(xùn)練獲得語言模型，以及根據(jù)所述語言模型，生成所述語言模型對應(yīng)的語言模型有限狀態(tài)轉(zhuǎn)換器，其中，所述語言模型有限狀態(tài)轉(zhuǎn)換器表征各個字或詞語之間的狀態(tài)轉(zhuǎn)移概率；

根據(jù)所述聲學(xué)模型有限狀態(tài)轉(zhuǎn)換器、所述發(fā)音詞典有限狀態(tài)轉(zhuǎn)換器和所述語言模型有限狀態(tài)轉(zhuǎn)換器，生成所述解碼圖。

4.如權(quán)利要求1-3任一項所述的方法，其特征在于，根據(jù)所述各待識別音頻幀的聲學(xué)特征和已生成的解碼圖，對所述待識別音頻幀序列進行解碼，確定所述待識別音頻幀序列對應(yīng)的詞語的識別結(jié)果，具體包括：

根據(jù)所述各待識別音頻幀的聲學(xué)特征和已生成的解碼圖，從所述解碼圖中搜索獲得候選解碼路徑和對應(yīng)的概率分值，并將概率分值最大的候選解碼路徑對應(yīng)的詞語文本序列，作為所述待識別音頻幀序列對應(yīng)的詞語的識別結(jié)果。

5.如權(quán)利要求4所述的方法，其特征在于，進一步包括：

若確定所述待識別音頻幀序列對應(yīng)的詞語的識別結(jié)果中詞語文本序列包含音素文本序列，則根據(jù)所述音素文本序列和確定對應(yīng)的詞語文本，更新所述發(fā)音詞典；

至少根據(jù)所述聲學(xué)模型和更新后的發(fā)音詞典，更新所述解碼圖。

6.如權(quán)利要求5所述的方法，其特征在于，進一步包括：

根據(jù)更新后的解碼圖，對所述待識別音頻幀序列進行解碼識別，確定所述待識別音頻幀序列對應(yīng)的詞語的識別結(jié)果。

7.一種語音識別裝置，其特征在于，包括：

獲取模塊，用于獲取待識別音頻幀序列；

提取模塊，用于分別提取所述待識別音頻幀序列中各待識別音頻幀的聲學(xué)特征；

解碼模塊，用于根據(jù)所述各待識別音頻幀的聲學(xué)特征和已生成的解碼圖，對所述待識別音頻幀序列進行解碼，確定所述待識別音頻幀序列對應(yīng)的詞語的識別結(jié)果，其中，所述解碼圖是至少根據(jù)聲學(xué)模型和發(fā)音詞典而生成的，所述聲學(xué)模型用于基于聲學(xué)特征以識別音素，所述發(fā)音詞典用于針對已知音素以識別輸出所述已知音素對應(yīng)的詞語文本，并針對未知音素以識別輸出以所述未知音素的音素文本表示的詞語文本。

8.如權(quán)利要求7所述的裝置，其特征在于，進一步包括，更新模塊，用于：

至少根據(jù)所述聲學(xué)模型和更新后的發(fā)音詞典，更新所述解碼圖。

9.一種電子設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述程序時實現(xiàn)權(quán)利要求1-6任一項所述方法的步驟。

10.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于：所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-6任一項所述方法的步驟。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011184868.3/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：半導(dǎo)體隔離結(jié)構(gòu)及其制作方法
下一篇：帶電設(shè)備的缺陷診斷方法及設(shè)備

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提??；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】