[發明專利]一種基于聲學模型陣列的魯棒語音識別方法有效
| 申請號: | 201410699802.6 | 申請日: | 2014-11-26 |
| 公開(公告)號: | CN104392718B | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 呂勇 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/20 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙)32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聲學 模型 陣列 語音 識別 方法 | ||
1.一種基于聲學模型陣列的魯棒語音識別方法,其特征在于:包括訓練階段和測試階段兩部分;在訓練階段,首先根據語音的最高頻率為訓練語音設定N個上限頻率;然后分別以這N個頻率為語音頻譜的最高頻率,提取特征向量,并進行模型訓練,得到聲學模型陣列;在測試階段,首先根據測試環境下的少量自適應語音,估計當前測試環境下語音的上限頻率;然后從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型,并對其參數進行調整,得到測試環境聲學模型;最后根據測試語音上限頻率進行特征提取,得到含噪測試語音的特征向量,并用測試環境聲學模型對其進行聲學解碼,得到識別結果;
訓練階段
(1)根據語音的最高頻率為訓練語音設定N個上限頻率,這N個上限頻率在Mel頻域等間距分布;
(2)分別以N個上限頻率為語音頻譜的最高頻率,提取N組不同上限頻率的特征向量:特征1、特征2,…,特征N;
(3)分別用特征1、特征2,…,特征N進行模型訓練,得到N組不同的聲學模型:聲學模型1、聲學模型2,…,聲學模型N,組成聲學模型序列;聲學模型序列中的每組聲學模型除了包括全部語音單元的聲學模型外,還包括其特征對應的上限頻率,用于后端的聲學模型選取;
設訓練語音庫中語音的最高頻率為fmax,首先將其轉換到Mel頻域:
其中,Fmax表示Mel頻域的最高頻率;然后,根據Fmax設定N個語音頻譜上限頻率:最后,將這N個頻率轉換到線性頻域:
其中,fk表示第k個語音頻譜上限頻率;
分別以f1,f2,…,fN為語音信號頻譜的最高頻率,為訓練語音提取倒譜特征,得到與f1,f2,…,fN對應的多組特征:特征1,特征2,…,特征N;每組聲學模型都包含各個語音單元的HMM,N組聲學模型組成聲學模型陣列;
測試階段
(4)根據測試環境下的自適應語音估計當前測試環境下含噪語音的上限頻率,測試語音上限頻率必須映射到f1,f2,…,fN中的某個值;
(5)根據估得的測試語音上限頻率,從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型;
(6)根據自適應語音,對選取的聲學模型的參數進行調整,使之與當前測試環境相匹配,得到測試環境聲學模型;
從聲學模型陣列中選取的聲學模型與實際測試環境仍然有較大的差異,需要對其參數進行調整才能用于聲學解碼,一般通過測試環境下的自適應語音對聲學模型的參數進行自適應調整;由于自適應數據較少,只調整HMM的均值向量,采用對數譜域線性變換:
HMM的第i個狀態的概率密度函數可以表示為:
其中,ot表示第t幀MFCC特征向量,cim、μim和Σim分別表示第i個狀態的第m個高斯單元的混合系數、均值向量和協方差矩陣,d表示特征向量的維數,即Mel濾波器組的通道數目;首先,通過逆離散余弦變換將μim變換回對數譜域:
uim=C-1μim(4)
其中,C-1表示離散余弦變換的逆矩陣,uim是訓練環境的對數譜域均值向量;
然后,在對數譜域用單變量線性回歸逼近訓練環境對數譜域均值向量uim與測試環境對數譜域均值向量之間的環境變換關系:
其中,Uim表示以向量uim的元素為對角元素生成的對角矩陣;向量a、b為線性變換參數;
在式(5)兩端進行離散余弦變換,得到:
其中,Dim=Cf[Uim,I],w=[aT,bT]T;
為了從自適應語音中估得線性變換參數a、b,構建如下輔助函數:
其中,γim(t)=P(θt=i,kt=m|O,λ),表示給定觀測向量序列O={o1,…,ot,…,oT}和先驗參數集λ的條件下,第t幀向量屬于第i個狀態的第m個高斯單元的后驗概率;
將式(6)代入式(7),并令輔助函數并令對向量w的導數為0,即可得到:
得到線性變換參數a、b后,即可根據式(6)更新每個HMM每個高斯單元的均值向量,得到測試環境聲學模型;
(7)根據估得的測試語音上限頻率,為含噪測試語音提取特征向量,并用模型自適應得到的測試環境聲學模型對其進行聲學解碼,得到識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410699802.6/1.html,轉載請聲明來源鉆瓜專利網。





