[發(fā)明專利]一種多口音聲學(xué)模型及多口音語音識別方法在審
| 申請?zhí)枺?/td> | 201911050896.3 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN110930982A | 公開(公告)日: | 2020-03-27 |
| 發(fā)明(設(shè)計)人: | 計哲;黃遠;高圣翔;沈亮;林格平;徐艷云 | 申請(專利權(quán))人: | 國家計算機網(wǎng)絡(luò)與信息安全管理中心;中國科學(xué)院信息工程研究所 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/16;G10L15/06;G10L15/08;G10L15/28;G10L15/26 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 陳玉婷 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 口音 聲學(xué) 模型 語音 識別 方法 | ||
本發(fā)明提供一種多口音聲學(xué)模型和多口音語音識別方法,所述多口音聲學(xué)模型包括多個BLSTM層、多個Softmax輸出層和一個門控單元,多個BLSTM層依次串接后與每一個Softmax輸出層串接,門控單元位于所述多個BLSTM層中的其中兩個相鄰的BLSTM層之間。本發(fā)明對傳統(tǒng)的普通話聲學(xué)模型構(gòu)造進行改進,針對需要識別的多種口音數(shù)據(jù)的類別數(shù)量,將傳統(tǒng)的普通話聲學(xué)模型中的Softmax輸出層復(fù)制多份,每一個Softmax輸出層為口音特定輸出層,將輸出層設(shè)計為口音特定的形式,即每種口音獨享其對應(yīng)的輸出層;而門控單元對神經(jīng)網(wǎng)絡(luò)的BLSTM層的輸出進行一種口音特定的調(diào)節(jié),以使該模型更好地適用于多種口音。
技術(shù)領(lǐng)域
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,尤其涉及一種多口音聲學(xué)模型及多口音語音識別方法。
背景技術(shù)
針對普通話構(gòu)建的基于使用神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫混合模型的普通話聲學(xué)模型的語音識別系統(tǒng)在標(biāo)準(zhǔn)普通話語音的語音識別上已經(jīng)可以達到比較令人滿意的效果,但這種普通話聲學(xué)模型在應(yīng)用于帶有口音的語音識別任務(wù)上時性能會明顯下降,這種性能下降主要是由于基于普通話構(gòu)建的普通話聲學(xué)模型無法對帶口音的語音數(shù)據(jù)進行準(zhǔn)確的音素狀態(tài)分類。因此,在處理帶有口音的語音的語音識別任務(wù)時,需要構(gòu)建專用的聲學(xué)模型。
一種語言的口音主要有兩個來源,一是由母語為其他語言的說話人發(fā)音產(chǎn)生的,二是由母語為該語言某種方言的說話人發(fā)音產(chǎn)生的。在漢語中,后者是口音的主要來源。漢語大致可以劃分成七大方言,即官話方言,吳方言、湘方言、客家方言、閩方言、粵方言、贛方言。此外,在一個比較復(fù)雜的大方言區(qū)內(nèi),有時可以再劃分成許多的小方言區(qū),市縣級別的方言可以稱之為地方方言,例如廣州話、青島話、唐山話等。因而,由不同方言所派生出的口音種類也是十分繁雜的,這就導(dǎo)致了在語音識別的實際應(yīng)用中通常需要處理的是多口音語音識別問題。
在實際的生產(chǎn)環(huán)境中,大量的普通話語音數(shù)據(jù)較容易獲取,而帶口音的語音數(shù)據(jù)由于標(biāo)注的復(fù)雜性以及高昂的人工成本往往面臨數(shù)據(jù)稀疏的問題。為了充分利用有限的數(shù)據(jù)來達到語音識別系統(tǒng)的最優(yōu)性能,通常的做法是先使用大數(shù)據(jù)量的普通話語音數(shù)據(jù)訓(xùn)練一個魯棒的普通話聲學(xué)模型,然后針對單個口音使用其對應(yīng)的數(shù)據(jù)進行自適應(yīng)得到特定口音聲學(xué)模型,這種方法被稱為口音特定聲學(xué)模型的自適應(yīng)。然而,這種方法需要對每個目標(biāo)口音都進行單獨的自適應(yīng)訓(xùn)練,并且需要找到其最優(yōu)的配置參數(shù),最終會得到多個聲學(xué)模型,得到的多個特定口音聲學(xué)模型在訓(xùn)練復(fù)雜度和存儲空間上的代價是很大的。
多口音聲學(xué)模型的自適應(yīng),即直接使用多口音語音數(shù)據(jù)利用傳統(tǒng)方法對普通話聲學(xué)模型進行優(yōu)化可以解決這個問題,但傳統(tǒng)的多口音聲學(xué)模型自適應(yīng)方法得到的多口音聲學(xué)模型性能通常差于口音特定聲學(xué)模型自適應(yīng)方法。
發(fā)明內(nèi)容
為克服上述現(xiàn)有的無法對多種口音識別以及識別率低的問題或者至少部分地解決上述問題,本發(fā)明實施例提供一種多口音聲學(xué)模型和多口音語音識別方法。
根據(jù)本發(fā)明的一個方面,提供一種多口音聲學(xué)模型,包括多個雙向長短期記憶網(wǎng)絡(luò)BLSTM(Bidirectional Long Short-Term Memory)層、多個Softmax輸出層和一個門控單元,所述多個BLSTM層依次串接后與每一個Softmax輸出層串接,所述門控單元位于所述多個BLSTM層中的其中兩個相鄰的BLSTM層之間;
其中,所述Softmax輸出層的數(shù)量與口音數(shù)據(jù)的類別數(shù)量相等,每一個Softmax輸出層與口音數(shù)據(jù)的類別一一對應(yīng)。
在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以作出如下改進。
優(yōu)選的,所述門控單元為加法型門控單元或者點乘型門控單元。
根據(jù)本發(fā)明的另一個方面,提供一種多口音語音識別方法,包括:
提取待識別口音數(shù)據(jù)的聲學(xué)特征;
將所述聲學(xué)特征輸入訓(xùn)練后的多口音聲學(xué)模型中,輸出所述待識別口音數(shù)據(jù)的三音素狀態(tài)的后驗概率;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國家計算機網(wǎng)絡(luò)與信息安全管理中心;中國科學(xué)院信息工程研究所,未經(jīng)國家計算機網(wǎng)絡(luò)與信息安全管理中心;中國科學(xué)院信息工程研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911050896.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于語音識別的聲學(xué)模型訓(xùn)練方法及裝置
- 具有集成聲學(xué)發(fā)生器的聲學(xué)發(fā)射傳感器
- 聲學(xué)發(fā)射傳感器裝置
- 一種基于空間折疊聲學(xué)超材料的單傳感器聲學(xué)相機
- 聲學(xué)環(huán)境中的聲學(xué)信號的基于上下文的消除和放大
- 聲學(xué)結(jié)構(gòu)和聲學(xué)系統(tǒng)
- 具有外放和私密操作模式的可穿戴個人聲學(xué)設(shè)備
- 聲換能器系統(tǒng)
- 一種聲學(xué)模型的訓(xùn)練方法、裝置以及計算機可讀存儲介質(zhì)
- 一種基于聲學(xué)暗室的聲學(xué)相位中心校準(zhǔn)方法及系統(tǒng)





