[發明專利]一種多口音聲學模型及多口音語音識別方法在審
| 申請號: | 201911050896.3 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN110930982A | 公開(公告)日: | 2020-03-27 |
| 發明(設計)人: | 計哲;黃遠;高圣翔;沈亮;林格平;徐艷云 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;中國科學院信息工程研究所 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/16;G10L15/06;G10L15/08;G10L15/28;G10L15/26 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 陳玉婷 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 口音 聲學 模型 語音 識別 方法 | ||
1.一種多口音聲學模型,用于對多種類別的口音數據進行識別,其特征在于,包括多個雙向長短期記憶網絡BLSTM層、多個Softmax輸出層和一個門控單元,所述多個BLSTM層依次串接后與每一個Softmax輸出層串接,所述門控單元位于所述多個BLSTM層中的其中兩個相鄰的BLSTM層之間;
其中,所述Softmax輸出層的數量與口音數據的類別數量相等,每一個Softmax輸出層與口音數據的類別一一對應。
2.根據權利要求1所述的多口音聲學模型,其特征在于,所述門控單元為加法型門控單元或者點乘型門控單元。
3.一種多口音語音識別方法,其特征在于,包括:
提取待識別口音數據的聲學特征;
將所述聲學特征輸入訓練后的權利要求1所述的多口音聲學模型中,輸出所述待識別口音數據的三音素狀態的后驗概率;
根據所述待識別口音數據的三音素狀態的后驗概率,得到所述待識別口音數據的文本序列。
4.根據權利要求3所述的多口音語音識別方法,其特征在于,通過如下方式對所述多口音聲學模型進行訓練:
提取包括多種類別的口音數據的口音數據訓練集中的每一條口音數據的聲學特征和口音類別標簽;
基于每一條口音數據的聲學特征和口音類別標簽,對所述多口音聲學模型進行訓練。
5.根據權利要求4所述的多口音語音識別方法,其特征在于,所述基于每一條口音數據的聲學特征和口音類別標簽,對所述多口音聲學模型進行訓練包括:
將每一條口音數據的所述聲學特征輸入所述多口音聲學模型的第一BLSTM層,依次經過多個BLSTM層,將所述門控單元前的BLSTM層的第一輸出向量和當前口音數據的口音類別標簽同時輸入所述門控單元;
經過所述門控單元的特定運算后的第二輸出向量作為所述門控單元后的BLSTM層的輸入,并由與當前口音數據對應的Softmax輸出層輸出當前口音數據的三音素狀態的后驗概率。
6.根據權利要求5所述的多口音語音識別方法,其特征在于,
當所述門控單元為加法型門控單元時,所述門控單元的特定運算為:
g(hi,va)=hi+Vva+b;
其中,hi為第i個BLSTM層的第一輸出向量,va為當前口音數據的口音類別標簽,g(hi,va)為門控單元運算后的第二輸出向量,V為M×N的矩陣,hi和va的維度分別是M和N,b為偏置向量,M和N均為正整數。
7.根據權利要求5所述的多口音語音識別方法,其特征在于,
當所述門控單元為點乘型門控單元時,所述門控單元的特定運算為:
g(hi,va)=hi·Vva+b;
其中,hi為第i個BLSTM層的第一輸出向量,va為當前口音數據的口音類別標簽,g(hi,va)為門控單元運算后的第二輸出向量,V為M×N的矩陣,hi和va的維度分別是M和N,b為偏置向量,M和N均為正整數。
8.根據權利要求4-7任一項所述的多口音語音識別方法,其特征在于,采用每一個口音數據類別的獨熱碼作為每一個口音數據的類別標簽。
9.根據權利要求5所述的多口音語音識別方法,其特征在于,采用小批量隨機梯度下降方法對所述多口音聲學模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;中國科學院信息工程研究所,未經國家計算機網絡與信息安全管理中心;中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911050896.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種結晶器內鋼液流動的預測方法
- 下一篇:一種升降清洗過濾網的除塵裝置





