[發(fā)明專利]用于語音識別的方法、裝置、設備和存儲介質在審
| 申請?zhí)枺?/td> | 202210803531.9 | 申請日: | 2022-07-07 |
| 公開(公告)號: | CN115472165A | 公開(公告)日: | 2022-12-13 |
| 發(fā)明(設計)人: | 吳璟成;馬嬈;邱瑾;秦亞楠;吳培昊;馬澤君 | 申請(專利權)人: | 臉萌有限公司;北京有竹居網(wǎng)絡技術有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/16;G10L15/02;G10L15/183 |
| 代理公司: | 北京世輝律師事務所 16093 | 代理人: | 羅利娜 |
| 地址: | 英屬開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 語音 識別 方法 裝置 設備 存儲 介質 | ||
根據(jù)本公開的實施例,提供了用于語音識別的方法、裝置、設備和存儲介質。該方法包括基于待識別語音對應的音頻特征信息和文本特征信息來確定待識別語音的候選識別結果的中間置信度得分,并且利用第一語言關聯(lián)關系,基于文本特征信息來確定候選識別結果的第一語言置信度得分。該方法還包括利用第二語言關聯(lián)關系,基于文本特征信息來確定候選識別結果的第二語言置信度得分。該方法還包括基于第一語言置信度得分與第二語言置信度得分的比較結果以及中間置信度得分,確定候選識別結果的目標置信度得分。以此方式,可以提升對特定領域和通用領域的語音識別準確率。
技術領域
本公開的示例實施例總體涉及計算機技術領域,特別地涉及用于語音識別的方法、裝置、設備和計算機可讀存儲介質。
背景技術
語音識別(Automatic Speech Recognition,ASR)指的是將語音信號轉化為機器可識別的輸入,例如自然語言文本。隨著人工智能技術的發(fā)展,已經研究和開發(fā)出機器學習模型來實現(xiàn)語音識別任務,使得語音識別技術能夠逐漸應用于日常生活。在一些特定的應用場景中,例如醫(yī)療、駕駛等,往往對語音識別準確率有著更高的要求。因此,基于領域的語音識別優(yōu)化成為非常重要的優(yōu)化方向。
發(fā)明內容
在本公開的第一方面,提供了一種語音識別方法。該方法包括:基于待識別語音對應的音頻特征信息和文本特征信息來確定待識別語音的候選識別結果的中間置信度得分;利用第一語言關聯(lián)關系,基于文本特征信息來確定候選識別結果的第一語言置信度得分;利用第二語言關聯(lián)關系,基于文本特征信息來確定候選識別結果的第二語言置信度得分;以及基于第一語言置信度得分與第二語言置信度得分的比較結果以及中間置信度得分,確定候選識別結果的目標置信度得分。
在本公開的第二方面,提供了一種用于語音識別的裝置。該裝置包括:中間得分確定模塊,被配置為基于待識別語音對應的音頻特征信息和文本特征信息來確定待識別語音的候選識別結果的中間置信度得分;第一語言得分確定模塊,被配置為利用第一語言關聯(lián)關系,基于文本特征信息來確定候選識別結果的第一語言置信度得分;第二語言得分確定模塊,被配置為利用第二語言關聯(lián)關系,基于文本特征信息來確定候選識別結果的第二語言置信度得分;以及目標得分確定模塊,被配置為基于第一語言置信度得分與第二語言置信度得分的比較結果以及中間置信度得分,確定候選識別結果的目標置信度得分。
在本公開的第三方面,提供了一種電子設備。該設備包括:至少一個處理單元;以及至少一個存儲器,至少一個存儲器被耦合到至少一個處理單元并且存儲用于由至少一個處理單元執(zhí)行的指令。指令在由至少一個處理單元執(zhí)行時使設備執(zhí)行第一方面的方法。
在本公開的第四方面,提供了一種計算機可讀存儲介質。該計算機可讀存儲介質上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)第一方面的方法。
應當理解,該部分中所描述的內容并非旨在限定本公開的實施例的關鍵特征或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的描述而變得容易理解。
附圖說明
結合附圖并參考以下詳細說明,本公開各實施例的上述和其他特征、優(yōu)點及方面將變得更加明顯。在附圖中,相同或相似的附圖標記表示相同或相似的元素,其中:
圖1示出了能夠在其中實現(xiàn)本公開的實施例的示例環(huán)境的示意圖;
圖2示出了根據(jù)本公開的一些實施例的語音識別架構的框圖;
圖3示出了根據(jù)本公開的一些實施例的語音識別的過程的流程圖;
圖4A和圖4B示出根據(jù)本公開的一些實施例的模型訓練過程的流程圖;
圖5示出了根據(jù)本公開的一些實施例的語音識別過程的流程圖;
圖6示出了根據(jù)本公開的一些實施例的用于語音識別的裝置的框圖;以及
圖7示出了其中可以實施本公開的一個或多個實施例的電子設備的框圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于臉萌有限公司;北京有竹居網(wǎng)絡技術有限公司,未經臉萌有限公司;北京有竹居網(wǎng)絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210803531.9/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





