[發明專利]一種基于動態HMM事件數的提高語音識別準確率的方法有效
| 申請號: | 201410281284.6 | 申請日: | 2014-06-20 |
| 公開(公告)號: | CN104064179B | 公開(公告)日: | 2018-06-08 |
| 發明(設計)人: | 劉明;王明江 | 申請(專利權)人: | 哈爾濱工業大學深圳研究生院 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/14 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙) 44248 | 代理人: | 陳本發;劉顯揚 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 準確率 孤立詞 語音識別 隱馬爾科夫模型 參數自適應 概率模型 靜態模型 傳統的 計算量 魯棒性 有效地 自適應 概率 統計 | ||
本發明為大規模孤立詞語音識別提供了一種提高識別準確率的方法,針對不同的孤立詞建立了隱馬爾科夫模型(HMM)參數自適應變化的機制,解決了不同的孤立詞因HMM概率模型中事件數相同而識別準確率和識別魯棒性低的問題。實驗結果表明,本發明的方法在稍許增加識別計算量的前提下,有效地提高了大規模孤立詞語音識別的準確率。待識別孤立詞為5120詞時,多次識別準確率的平均值由91%提高到了97.3%;待識別孤立詞為10240詞時,多次識別準確率的平均值由87%提高到了96.3%。相比于傳統的基于統計概率的靜態模型的語音識別,采用本發明方法的優勢在于針對不同用戶自適應的調整識別模型的參數,從而提高識別的準確率。
技術領域
本發明涉及孤立詞語音識別領域,具體涉及一種提高大規模孤立詞語音識別的準確率的方法。
背景技術
語音在特征參數提取,得到聚類編碼后,此時單純地依靠歐氏距離來判定某一個待識別詞屬于詞庫中的哪一個詞的聚類時,是十分不準確的。語音內在的規律是統計學上的概率模型,而歐式距離反應的是向量距離聚類中心向量的距離,故需要對得到的參數和碼本做進一步的訓練,建立更加精確的統計概率模型,從而更好地反映特征參數對語音內在規律的體現。隱馬爾科夫(HMM)模型是一種反應事件跳轉概率、觀察樣本出現概率的非常好的數學模型,因此將語音特征參數按照一定的算法進行處理,得到HMM概率模型。
隱馬爾可夫模型是一種用參數表示的概率模型,用于描述隨機過程統計特性,由馬爾可夫鏈演變而來,一直是語音識別的一個研究熱點,在語音處理的各個領域獲得廣泛應用。語音的HMM概率模板的建立,需要語音的特征參數向量的聚類編碼,語音向量編碼,概率模板訓練過程進行前向、后向概率計算,直到得到一個收斂的概率模型。
聲學模型通常是將獲取的語音特征參數使用特定的概率算法進行訓練后產生。在基于HMM的語音識別中,一個聲學模型就是一個HMM模型,通常是將獲取的語音特征參數使用HMM概率跳轉算法進行訓練后產生HMM模型集合。待識別語音經過提取和HMM模型一致的特征參數,采用后向貝葉斯概率算法,計算出后驗概率,產生最大的后驗概率的HMM概率模板所代表的語音樣本即為待識別語音。
對語音數據而言,主要是時頻采樣和頻譜變換,有略微時頻特性差異的語音都可以建立相公的HMM模型。其次,模型訓練就是利用現有的樣本對HMM的參數進行調整,使之能夠準確描述不同語音對應的語音概率特征。對語音建立模型的過程實際上是對語音做數學建模,并且假定相應的語音特識別概率有這些數學模型計算得到,并且有一個極值。對HMM來說,主要是確定模型的基本拓撲結構,包括事件數目、事件的跳轉模式和跳轉概率等。
不同的詞,其對應的HMM模型的事件數目是不相同的,即使人耳認為相同的語音(同一個詞),由于不同人的發音、音調、口音,也會導致HMM參數的差異,即其所包含的HMM事件數是不同的。隨著孤立詞個數的增加,若使用同一個HMM事件數,顯然準確率會下降。
發明內容
為解決現有技術中存在的問題,本發明提出了一種通過動態改變HMM模型的事件數來提高大規模孤立詞語音識別準確率的方法,解決了隨著識別孤立詞數量的增加而識別準確率下降的問題。
本發明通過以下技術方案實現:
一種基于動態HMM事件數的提高大規模孤立詞語音識別準確率的方法,包括以下步驟:
A.給出初始的HMM模型的參數,所述參數包括事件數N和觀察符號數M,所述HMM模型采用由左至右無跨越模型結構;其中,初始事件數為40,觀察符號數目為32,觀察序列個數為20,HMM事件跳轉概率矩陣為40×20,由觀察序列的個數和觀察符號數目可以得到一個20×32的觀察序列概率矩陣;初始事件概率矢量是一個1×20的行矩陣;
B.根據初始HMM事件數、觀察序列數以及觀察符號數,采用Baum-Welch算法訓練得到的HMM模型進行孤立詞語音識別,觀察識別的準確率和魯棒性;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學深圳研究生院,未經哈爾濱工業大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410281284.6/2.html,轉載請聲明來源鉆瓜專利網。





