[發(fā)明專利]用于語音識別的方法、裝置、設備和存儲介質在審

申請?zhí)枺?/td>	202210803531.9	申請日：	2022-07-07
公開（公告）號：	CN115472165A	公開（公告）日：	2022-12-13
發(fā)明（設計）人：	吳璟成;馬嬈;邱瑾;秦亞楠;吳培昊;馬澤君	申請（專利權）人：	臉萌有限公司;北京有竹居網(wǎng)絡技術有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/16;G10L15/02;G10L15/183
代理公司：	北京世輝律師事務所 16093	代理人：	羅利娜
地址：	英屬開***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用于語音識別方法裝置設備存儲介質
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

根據(jù)本公開的實施例，提供了用于語音識別的方法、裝置、設備和存儲介質。該方法包括基于待識別語音對應的音頻特征信息和文本特征信息來確定待識別語音的候選識別結果的中間置信度得分，并且利用第一語言關聯(lián)關系，基于文本特征信息來確定候選識別結果的第一語言置信度得分。該方法還包括利用第二語言關聯(lián)關系，基于文本特征信息來確定候選識別結果的第二語言置信度得分。該方法還包括基于第一語言置信度得分與第二語言置信度得分的比較結果以及中間置信度得分，確定候選識別結果的目標置信度得分。以此方式，可以提升對特定領域和通用領域的語音識別準確率。

技術領域

本公開的示例實施例總體涉及計算機技術領域，特別地涉及用于語音識別的方法、裝置、設備和計算機可讀存儲介質。

背景技術

語音識別(Automatic Speech Recognition，ASR)指的是將語音信號轉化為機器可識別的輸入，例如自然語言文本。隨著人工智能技術的發(fā)展，已經研究和開發(fā)出機器學習模型來實現(xiàn)語音識別任務，使得語音識別技術能夠逐漸應用于日常生活。在一些特定的應用場景中，例如醫(yī)療、駕駛等，往往對語音識別準確率有著更高的要求。因此，基于領域的語音識別優(yōu)化成為非常重要的優(yōu)化方向。

發(fā)明內容

在本公開的第一方面，提供了一種語音識別方法。該方法包括：基于待識別語音對應的音頻特征信息和文本特征信息來確定待識別語音的候選識別結果的中間置信度得分；利用第一語言關聯(lián)關系，基于文本特征信息來確定候選識別結果的第一語言置信度得分；利用第二語言關聯(lián)關系，基于文本特征信息來確定候選識別結果的第二語言置信度得分；以及基于第一語言置信度得分與第二語言置信度得分的比較結果以及中間置信度得分，確定候選識別結果的目標置信度得分。

在本公開的第二方面，提供了一種用于語音識別的裝置。該裝置包括：中間得分確定模塊，被配置為基于待識別語音對應的音頻特征信息和文本特征信息來確定待識別語音的候選識別結果的中間置信度得分；第一語言得分確定模塊，被配置為利用第一語言關聯(lián)關系，基于文本特征信息來確定候選識別結果的第一語言置信度得分；第二語言得分確定模塊，被配置為利用第二語言關聯(lián)關系，基于文本特征信息來確定候選識別結果的第二語言置信度得分；以及目標得分確定模塊，被配置為基于第一語言置信度得分與第二語言置信度得分的比較結果以及中間置信度得分，確定候選識別結果的目標置信度得分。

在本公開的第三方面，提供了一種電子設備。該設備包括：至少一個處理單元；以及至少一個存儲器，至少一個存儲器被耦合到至少一個處理單元并且存儲用于由至少一個處理單元執(zhí)行的指令。指令在由至少一個處理單元執(zhí)行時使設備執(zhí)行第一方面的方法。

在本公開的第四方面，提供了一種計算機可讀存儲介質。該計算機可讀存儲介質上存儲有計算機程序，計算機程序被處理器執(zhí)行時實現(xiàn)第一方面的方法。

應當理解，該部分中所描述的內容并非旨在限定本公開的實施例的關鍵特征或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的描述而變得容易理解。

附圖說明

結合附圖并參考以下詳細說明，本公開各實施例的上述和其他特征、優(yōu)點及方面將變得更加明顯。在附圖中，相同或相似的附圖標記表示相同或相似的元素，其中：

圖1示出了能夠在其中實現(xiàn)本公開的實施例的示例環(huán)境的示意圖；

圖2示出了根據(jù)本公開的一些實施例的語音識別架構的框圖；

圖3示出了根據(jù)本公開的一些實施例的語音識別的過程的流程圖；

圖4A和圖4B示出根據(jù)本公開的一些實施例的模型訓練過程的流程圖；

圖5示出了根據(jù)本公開的一些實施例的語音識別過程的流程圖；

圖6示出了根據(jù)本公開的一些實施例的用于語音識別的裝置的框圖；以及

圖7示出了其中可以實施本公開的一個或多個實施例的電子設備的框圖。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于臉萌有限公司;北京有竹居網(wǎng)絡技術有限公司，未經臉萌有限公司;北京有竹居網(wǎng)絡技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210803531.9/2.html，轉載請聲明來源鉆瓜專利網(wǎng)。

上一篇：光敏組分及其在光引發(fā)自由基聚合中的應用
下一篇：一種不規(guī)則毛霉生長抑制劑的應用及實驗方法

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓練語音識別系統(tǒng)，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】