[發明專利]一種融合引導概率的語音識別優化解碼方法無效
| 申請號: | 201210560745.4 | 申請日: | 2012-12-20 |
| 公開(公告)號: | CN102982799A | 公開(公告)日: | 2013-03-20 |
| 發明(設計)人: | 劉文舉;楊占磊 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/06;G10L15/08 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 引導 概率 語音 識別 優化 解碼 方法 | ||
1.一種融合引導概率的語音識別解碼方法,其特征在于,包括下列步驟:
步驟a:訓練通用背景模型,用于描述整個聲學特征空間;
步驟b:計算語音幀在所述通用背景模型上的主高斯分量;
步驟c:利用聲學模型對訓練語料庫進行強制切分,得到語音幀所屬的音素;
步驟d:統計音素與所述通用背景模型中高斯分量的響應頻次;
步驟e:根據所述響應頻次計算得到引導概率;
步驟f:將引導概率融合到語音識別路徑的總得分計算中,從而完成對語音識別路徑得分的增強或者削弱。
2.如權利要求1所述的方法,其特征在于,所述步驟a中使用下面兩種方式之一訓練所述通用背景模型:
其一,使用期望最大化算法訓練混合高斯模型并逐漸增加所述混合高斯模型中高斯分量的個數,最終得到通用背景模型;
其二,分別針對訓練語料庫中的每一個音素建立隱馬爾科夫模型;然后使用Baum-Welch算法更新所述隱馬爾科夫模型中的參數,得到訓練好的隱馬爾科夫模型;之后,將所述隱馬爾科夫模型中的各高斯分量加權得到初始通用背景模型,并使用EM算法對所得到的通用背景模型中的各高斯分量的參數做調整,得到最終的通用背景模型。
3.如權利要求1所述的方法,其特征在于,步驟b中,對于語音幀O,其主高斯分量為在所述通用背景模型中概率值最大的高斯分量。
4.如權利要求3所述的方法,其特征在于,所述語音幀O在所述通用背景模型中的概率值如下計算:
其中,λm為所述通用背景模型中第m個高斯分量的概率密度函數,μm,∑m分別表示第m個高斯分量的均值和方差。
5.如權利要求1所述的方法,其特征在于,所述步驟c具體包括:
建立三音子聲學模型,并利用所述三音子聲學模型和Viterbi算法對訓練語料庫相對應的音素序列中的每一個音素劃分時間邊界,得到所述音素序列中每一個音素的起始時間位置和終止時間位置,并將處于所述起始時間位置和終止時間位置之間的語音幀,標注為屬于此音素,以此得到每一語音幀所屬的音素。
6.如權利要求1所述的方法,其特征在于,所述步驟d中,所述音素與所述通用背景模型中高斯分量的響應頻次為:對于每一高斯分量和每一音素,以所述高斯分量為主高斯分量且屬于所述音素的語音幀的幀數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210560745.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種合金鋼材料及其制備方法
- 下一篇:一種充氣筒式可伸縮自行車腳踏板





