[發(fā)明專利]一種流式和非流式混合語音識別系統(tǒng)及流式語音識別方法有效
| 申請?zhí)枺?/td> | 202110675286.3 | 申請日: | 2021-06-18 |
| 公開(公告)號: | CN113257248B | 公開(公告)日: | 2021-10-15 |
| 發(fā)明(設(shè)計)人: | 陶建華;田正坤;易江燕 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/16;G10L15/06 |
| 代理公司: | 北京華夏泰和知識產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 孫劍鋒;李永葉 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 非流式 混合 語音 識別 系統(tǒng) 方法 | ||
本發(fā)明提供一種流式和非流式混合語音識別系統(tǒng),包括:流式編碼器、聯(lián)結(jié)時序分類解碼器和注意力機制解碼器;流式編碼器采用基于局部自注意力機制的Transformer來進行構(gòu)建;聯(lián)結(jié)時序分類解碼器包含一個線性映射層,負責(zé)將編碼狀態(tài)映射到預(yù)先設(shè)計好的詞表空間,使編碼狀態(tài)映射表示的維度與詞表空間的維度相同,然后通過Softmax計算預(yù)測到的標記,用于流式解碼;注意力機制解碼器采用Transformer解碼器來構(gòu)建,由前端卷積層和多層重復(fù)的單向Transformer編碼層組成,最后一層為線性映射層,使編碼狀態(tài)映射表示的維度與詞表空間的維度相同,并計算最終輸出的概率。
技術(shù)領(lǐng)域
本申請涉及語音識別領(lǐng)域,尤其涉及一種流式和非流式混合語音識別系統(tǒng)。
背景技術(shù)
目前語音識別技術(shù)已經(jīng)獲得了廣泛的應(yīng)用,語音識別根據(jù)不同的應(yīng)用場景可以劃分為流式語音識別系統(tǒng)和非流式語音識別系統(tǒng),流式語音識別系統(tǒng)為了降低延遲和實時率,其所依賴的聲學(xué)上下文大大降低,其在一定程度上也影響了模型的識別效果。非流式的語音識別系統(tǒng),其應(yīng)用于對于實時率沒有要求的場合,其可以使用全部的聲學(xué)序列進行預(yù)測,一般情況下非流式系統(tǒng)相較流式識別系統(tǒng)具有更好的識別效果。然而為了適應(yīng)不同的任務(wù)需求,一般要針對流式和非流式任務(wù)來分別訓(xùn)練模型,而并沒有一種效果好的方案可以實現(xiàn)一個模型應(yīng)用于兩種任務(wù)。本發(fā)明提出一種語音識別系統(tǒng),其將流式和非流式模型整合到同一個模型中,實現(xiàn)了一種模型,兩種解碼模式,適用于兩種類型的任務(wù)。
目前針對流式語音識別和非流式語音識別的方案有很多種,但是將兩種識別模型統(tǒng)一到一個框架中的方案并不多。其中主要包含兩種思路:
第一種思路是Google的思路,通過編碼器部分的變上下文訓(xùn)練來實現(xiàn)同一個編碼器對于流式(局部上下文)和非流式(全局上下文)的適應(yīng)。其在模型訓(xùn)練過程中,同時訓(xùn)練流式和非流式,當訓(xùn)練流式模型時候,會遮蔽掉聲學(xué)下文,僅依賴聲學(xué)上文。而訓(xùn)練非流式的時候,并不采用遮蔽操作,而對全部的聲學(xué)上下文進行建模。為了消除流式模型和非流式模型之間的性能差距,模型還使用了知識萃取的思路,使用非流式模型來提升流式模型的表現(xiàn)。解碼器可以使用一個解碼器來實現(xiàn)兩種解碼模式,只需要針對不同的任務(wù)需求選擇不同的編碼器即可。
第二種思路是阿里巴巴提出的混合模型,其模型包含兩個編碼器(流式和非流式)和兩個解碼器。系統(tǒng)對對輸入的語音采用不同的類別的編碼器進行編碼,針對流式任務(wù)則選流式編碼器,然后使用流式解碼器進行初步解碼,使用非流式解碼器對其解碼結(jié)果進行重打分。進行非流式解碼就是解碼的時候僅依賴于非流式編碼器和解碼器。這種結(jié)構(gòu)模型相對復(fù)雜。
申請公布號CN111402891A公開的實施例提供了語音識別方法、裝置、設(shè)備和存儲介質(zhì)。所述方法包括獲取當前待識別語音信號的語音特征序列;將所述語音特征序列輸入預(yù)先訓(xùn)練得到的Deep-FSMN模型,得到表示各個音素的概率的輸出序列;將所述輸出系列輸入預(yù)先訓(xùn)練的CTC模型,得到對應(yīng)的音素序列;將所述音素序列輸入語言模型,轉(zhuǎn)換成最終的文字序列作為識別結(jié)果。以此方式,可以提升模型性能,減少語音識別的時延;減少了運算量,提高了語音識別效果。
申請公布號CN111968629A請求保護一種結(jié)合Transformer和CNN-DFSMN-CTC的中文語音識別方法,該方法包括步驟:S1,將語音信號進行預(yù)處理,提取80維的log melFbank特征;S2,將提取到的80維Fbank特征用CNN卷積網(wǎng)絡(luò)進行卷積;S3,將特征輸入到DFSMN網(wǎng)絡(luò)結(jié)構(gòu)中;S4,將CTC loss作為聲學(xué)模型的損失函數(shù),采用Beam search算法進行預(yù)測,使用Adam優(yōu)化器進行優(yōu)化;S5,引入強語言模型Transformer迭代訓(xùn)練直至達到最優(yōu)模型結(jié)構(gòu);S6,將Transformer和聲學(xué)模型CNN-DFSMN-CTC相結(jié)合進行適配,在多數(shù)據(jù)集上進行驗證,最終得到最優(yōu)識別結(jié)果。本發(fā)明識別準確率更高,解碼速度更快,在多個數(shù)據(jù)集上驗證后字符錯誤率達到了11.8%,其中在Aidatatang數(shù)據(jù)集上最好達到了7.8%的字符錯誤率。
現(xiàn)有技術(shù)主要問題包含兩方面:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110675286.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





