[發(fā)明專利]基于神經(jīng)網(wǎng)絡(luò)的自動語音識別方法、設(shè)備及可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110706592.9 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113450805B | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計)人: | 方明;魏韜;馬駿;王少軍 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/32 | 分類號: | G10L15/32;G10L15/06;G10L15/14;G10L15/16;G06N3/02;G06K9/62;G06F40/284 |
| 代理公司: | 北京鴻元知識產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 張娓娓;袁文婷 |
| 地址: | 518033 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 神經(jīng)網(wǎng)絡(luò) 自動 語音 識別 方法 設(shè)備 可讀 存儲 介質(zhì) | ||
本發(fā)明涉及一種人工智能,提供一種基于神經(jīng)網(wǎng)絡(luò)的自動語音識別方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì),其中方法包括:通過ASR識別進程中的聲學(xué)模型和ngram語言模型共同對待識別的音頻進行識別處理,獲取至少兩個以上的初次識別結(jié)果;將所述初次識別結(jié)果傳輸至rescore進程,并通過rescore進程中的gpt語言模型進行評分處理,獲取gpt語言模型得分;將所述gpt語言模型得分傳輸至所述ASR識別進程,并替換所述ASR識別進程中的ngram語言模型得分;對所述ASR識別進程中的所述gpt語言模型得分與所述聲學(xué)模型得分之和進行排序,并將排序結(jié)果中排序最前的識別結(jié)果作為最終識別結(jié)果。本發(fā)明主要目的在于通過采用gpt語言模型,解決數(shù)據(jù)稀疏性的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種基于神經(jīng)網(wǎng)絡(luò)的自動語音識別方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì)。
背景技術(shù)
在傳統(tǒng)的語音識別的過程中包括兩個模型,分別是聲學(xué)模型和語言模型;其中,語言模型一般采用ngram語言模型,ngram這種基于元組統(tǒng)計的概率模型,只能抓到詞組前后的統(tǒng)計信息,無法學(xué)習(xí)到更深入的語法、語義信息,再加上這種詞頻統(tǒng)計的概率計算方法,有參數(shù)空間過大問題和數(shù)據(jù)稀疏嚴重的問題,尤其在高階ngram模型中,隨著階數(shù)增加,ngram模型和稀疏性會指數(shù)級別增加。即使人們提出和很多種辦法去努力解決ngram模型本身的問題,例如剪枝和回退,都只是減弱ngram模型的問題,無法從解決ngram語言模型的根本性問題。
目前一種常見的解決方案:保持原有ngram模型不變,在wfst解碼之后,生成top n的ARS識別結(jié)果的基礎(chǔ)上,重新對生成語句的語言模型進行打分,并進行重排序。采用有更多語料的ngram模型,更高階的ngram模型等等;但常常遇到的問題是采用越復(fù)雜語言模型常常會導(dǎo)致更多的識別時延,用簡單的語言模型往往不能取得準確的識別效果。
為了解決上述問題,亟需一種新的自動語音識別方案。
發(fā)明內(nèi)容
本發(fā)明提供一種基于神經(jīng)網(wǎng)絡(luò)的自動語音識別方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì),其主要目的在于通過采用gpt語言模型,解決數(shù)據(jù)稀疏性的問題。
為實現(xiàn)上述目的,本發(fā)明提供的基于神經(jīng)網(wǎng)絡(luò)的自動語音識別方法,應(yīng)用于電子設(shè)備,所述方法包括:
通過ASR識別進程中的聲學(xué)模型和ngram語言模型共同對待識別的音頻進行識別處理,獲取至少兩個以上的初次識別結(jié)果;其中,每個識別結(jié)果包括聲學(xué)模型得分、ngram語言模型得分及所述聲學(xué)模型得分與所述ngram語言模型得分之和;
將所述初次識別結(jié)果傳輸至rescore進程,并通過rescore進程中的gpt語言模型進行評分處理,獲取gpt語言模型得分;
將所述gpt語言模型得分傳輸至所述ASR識別進程,并替換所述ASR識別進程中的ngram語言模型得分;
對所述ASR識別進程中的所述gpt語言模型得分與所述聲學(xué)模型得分之和進行排序,并將排序結(jié)果中排序最前的識別結(jié)果作為最終識別結(jié)果。
可選地,所述通過ASR識別進程中聲學(xué)模型和ngram語言模型對待識別的音頻進行識別處理,獲取至少兩個以上的初次識別結(jié)果,包括如下步驟:
將所述待識別的音頻轉(zhuǎn)化為音頻特征;
根據(jù)所述音頻特征獲取所述音頻特征中每幀的后驗概率;
根據(jù)所述每幀的后驗概率,對ngram語言模型生成的wfst圖進行viterbi解碼生成lattice圖;以及
根據(jù)所述lattice圖,獲取至少兩個以上的初次識別結(jié)果。
可選地,所述將所述待識別的音頻轉(zhuǎn)化為音頻特征,包括如下步驟:
對所述待識別音頻進行分幀、加窗處理,獲取規(guī)范音頻;以及
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110706592.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





