[發明專利]一種基于聲學模型陣列的魯棒語音識別方法有效
| 申請號: | 201410699802.6 | 申請日: | 2014-11-26 |
| 公開(公告)號: | CN104392718B | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 呂勇 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/20 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙)32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聲學 模型 陣列 語音 識別 方法 | ||
技術領域
本發明屬于語音識別技術領域,具體涉及到根據多個語音上限頻率,提取多組不同頻率范圍的特征向量,構建聲學模型陣列,并對與測試語音上限頻率相匹配的聲學模型進行補償,提高語音識別系統魯棒性的模型自適應方法。
背景技術
在語音識別系統的實際應用中,由于環境噪聲等語音變異性的影響,預先訓練的聲學模型往往與測試環境下提取的特征參數不匹配,這會導致語音識別系統性能的嚴重下降。因此,有必要對環境失配進行補償,提高語音識別系統的識別性能。
在語音信號處理中,語音被分成一系列前后有部分采樣值重疊的幀。對于大部分幀來說,語音信號的基音及各次諧波只存在于頻譜的低頻部分;高頻部分只含有少量語音成分。因而,可以將語音信號的頻譜劃分為低頻諧波部分和高頻非周期部分。高頻非周期部分對安靜環境下的語音識別有一定作用,因此被包含在特征參數中。然而,語音頻譜的高頻部分能量較小,在噪聲環境下,容易被噪聲覆蓋,因此在含噪測試環境下,含噪語音頻譜的高頻部分為噪聲成分,不僅不能給語音識別提供有效作用,而且會給后端的模型自適應帶來不利影響。因此,在噪聲環境下,有必要估計含噪語音頻譜中有效語音成分的上限頻率,然后根據該上限頻率,去處高頻部分,保留低頻周期部分,用于語音識別。
一般來說,由于不同語音音節的發音強弱不同,即使在同一種含噪測試環境下,不同幀的語音上限頻率也是不同的。而語音識別系統一般采用隱馬爾可夫模型(HMM:Hidden Markov Model)作為聲學模型,用于訓練生成HMM的特征向量的頻率范圍或向量維數必須相同。因此,在測試階段的含噪語音上限頻率估計中,必須采用一個平均值作為整個發音的語音上限頻率。
發明內容
發明目的:針對現有技術中存在的問題,本發明提供一種基于聲學模型陣列的魯棒語音識別方法。在訓練階段,首先根據語音的最高頻率為訓練語音設定N個上限頻率;然后分別以這N個頻率為語音頻譜的最高頻率,提取特征向量,并進行模型訓練,得到聲學模型陣列。在測試階段,首先根據測試環境下的少量自適應語音,估計當前測試環境下語音的上限頻率;然后從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型,并對其參數進行調整,得到測試環境聲學模型;最后根據測試語音上限頻率進行特征提取,得到含噪測試語音的特征向量,并用測試環境聲學模型對其進行聲學解碼,得到識別結果。
技術方案:一種基于聲學模型陣列的魯棒語音識別方法,包括訓練階段和測試階段兩部分,其中:
訓練階段的具體步驟包括:
(1)根據語音的最高頻率為訓練語音設定N個上限頻率,這N個上限頻率在Mel頻域等間距分布;
(2)分別以N個上限頻率為語音頻譜的最高頻率,提取N組不同上限頻率的特征向量:特征1、特征2,…,特征N;
(3)分別用特征1、特征2,…,特征N進行模型訓練,得到N組不同的聲學模型:聲學模型1、聲學模型2,…,聲學模型N,組成聲學模型序列;聲學模型序列中的每組聲學模型除了包括全部語音單元的聲學模型外,還包括其特征對應的上限頻率,用于后端的聲學模型選取;
測試階段的具體步驟包括:
(4)根據測試環境下的自適應語音估計當前測試環境下含噪語音的上限頻率;
(5)根據估得的測試語音上限頻率,從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型;
(6)根據自適應語音,對選取的聲學模型的參數進行調整,使之與當前測試環境相匹配,得到測試環境聲學模型;
(7)根據估得的測試語音上限頻率,為含噪測試語音提取特征向量,并用模型自適應得到的測試環境聲學模型對其進行聲學解碼,得到識別結果。
有益效果:與現有技術相比,本發明根據多個語音上限頻率,提取多組不同頻率范圍的特征向量,構建聲學模型陣列,并對與測試語音上限頻率相匹配的聲學模型進行補償,得到測試環境聲學模型。用對應多個語音上限頻率的聲學模型陣列取代單一頻率范圍的聲學模型,預測實際環境下測試語音頻譜的頻率范圍;在含噪測試環境下的語音識別中,只保留含噪語音頻譜的低頻周期成分,去除語音上限頻率以上的高頻噪聲部分,減小高頻噪聲對模型自適應的影響,從而提高模型自適應的精度,得到與測試環境更加匹配的聲學模型。與傳統的全頻帶模型自適應技術相比,本發明可以提高低信噪比環境下語音識別系統的性能,增強系統的魯棒性。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410699802.6/2.html,轉載請聲明來源鉆瓜專利網。





