[發明專利]一種融合引導概率的語音識別優化解碼方法無效
| 申請號: | 201210560745.4 | 申請日: | 2012-12-20 |
| 公開(公告)號: | CN102982799A | 公開(公告)日: | 2013-03-20 |
| 發明(設計)人: | 劉文舉;楊占磊 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/06;G10L15/08 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 引導 概率 語音 識別 優化 解碼 方法 | ||
技術領域
本發明涉及語音識別領域,特別涉及語音識別聲學建模和解碼領域。
背景技術
目前,語音識別系統普遍采用隱馬爾科夫模型作為聲學建模及解碼的基本模型。為考慮上下文發音對語音單元的影響,人們多采用三音子(triphone)模型改善系統識別率。但在考慮上下文后,模型數量及參數規模急劇增加。以漢語大詞匯量連續語音識別系統為例,基本音素集中只包含191個聲母及帶調韻母,而相應的三音子模型總數超過20萬。即使經過模型層、狀態層及高斯成分層的參數共享,參數規模依然龐大。這不僅會帶來參數訓練不充分的問題,在識別階段,也會引入過高的解碼復雜度。充分發掘現有訓練數據中的有用信息,無論對聲學模型參數規模的壓縮,還是對模型精度的提高從而改善語音識別系統性能,都具有很重要的意義。
2009年在美國約翰霍普金斯大學召開的研討會,以新語言與新領域為應用背景,提出一種基于子空間高斯混合模型(Subspace?Gaussian?Mixture?Models,Subspace?GMM)的語音識別方法(參考文獻1:D.Povey,“A?tutorial-style?introduction?to?subspace?gaussian?mixture?models?for?speech?recognition,”Tech.Rep.,Tech.Rep.MSR-TR-2009-111,Microsoft?Research,2009.)。與傳統隱馬爾科夫模型(Hidden?Markov?Model,HMM)每一狀態直接關聯一個高斯混合模型(Gaussian?Mixture?Model,GMM)不同,子空間高斯混合模型直接關聯一個向量,并通過此向量計算出所關聯的GMM。由于向量維度遠低于GMM中的參數規模,使得聲學模型表示更加緊湊,在有限的訓練數據上,可以取得較傳統模型更好的識別效果。
除了壓縮和改善聲學建模外,也可以在解碼階段,改善路徑擴展及剪枝機制,使最有希望的路徑保留下來。傳統的解碼過程在計算路徑得分時,只使用聲學模型概率與語言模型概率,并將二者融合后的總概率作為擴展或剪枝的依據。
但是,在現有的解碼技術中,由于不同模型可能會對同一語音段的打分相同,只依靠聲學模型與語言模型,難以最大程度地刻畫不同音素的差異。表現為解碼過程中搜索路徑的急劇膨脹,以及剪枝錯誤等。例如,在現有的Beam搜索技術中,解碼器會在整個搜索空間無區別地計算每一條路徑的概率,并保留與最大概率差值不超過Beam的路徑,概率過小的路徑被刪除。這種傳統解碼方法不關注對局部空間的考察,每一條路徑都是平等地進行擴展和剪枝。
實際上,對任何一幀語音特征,它都位于聲學特征空間的一個局部。本發明希望利用待識別語音幀在聲學特征空間中的位置信息,加強對此局部空間的搜索,強化此局部空間上的路徑,并盡可能予以保留和擴展;對不屬于此局部空間的路徑,不予強化。在加強局部空間搜索后,經過此局部的路徑在全部路徑中所占的比例增加,從而使保留和擴展的路徑中含有盡可能多的正確路徑。與傳統解碼算法相比,本發明中所提算法把盡可能多的有希望的路徑加入到路徑集合,同時弱化潛力不大的路徑。
發明內容
(一)要解決的技術問題
本發明的目的在于解決現有語音識別解碼技術中缺乏利用待識別語音幀在聲學特征空間中的位置信息、缺乏對部分局部空間強化搜索的不足。
(二)技術方案
為解決上述問題,本發明提出了一種融合引導概率的語音識別解碼方法,其特征在于,包括下列步驟:
步驟a:訓練通用背景模型,用于描述整個聲學特征空間;
步驟b:計算語音幀在所述通用背景模型上的主高斯分量;
步驟c:利用聲學模型對訓練語料庫進行強制切分,得到語音幀所屬的音素;
步驟d:統計音素與所述通用背景模型中高斯分量的響應頻次;
步驟e:根據所述響應頻次計算得到引導概率;
步驟f:將引導概率融合到語音識別路徑的總得分計算中,從而完成對語音識別路徑得分的增強或者削弱。
(三)有益效果
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210560745.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種合金鋼材料及其制備方法
- 下一篇:一種充氣筒式可伸縮自行車腳踏板





