[發明專利]一種快速可在線應用的聲道長度歸整方法有效
| 申請號: | 200810097981.0 | 申請日: | 2008-05-21 | 
| 公開(公告)號: | CN101447182A | 公開(公告)日: | 2009-06-03 | 
| 發明(設計)人: | 顏永紅;劉趙杰;趙慶衛;潘接林 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 | 
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/06 | 
| 代理公司: | 北京法思騰知識產權代理有限公司 | 代理人: | 楊小蓉 | 
| 地址: | 100190北京市海淀區*** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 在線 應用 聲道 長度 歸整 方法 | ||
技術領域
本發明涉及語音識別技術中一種說話人聲學特征歸整方法,更具體地說,本發 明涉及一種快速可在線應用的說話人聲道長度歸整方法。
背景技術
語音是人的自然屬性之一。由于說話人發音器官的生理差異以及后天形成的行 為差異,在語音識別中說話人相關系統的性能要好于說話人無關系統。為了減小由 于說話人差異而引起的說話人無關系統性能的下降,聲道長度歸整是一種常用的有 效方法。聲道長度歸整是一種基于模型的特征歸整技術,依賴于說話人聲道長度歸 整模型。文獻,H.Wakita“Normalization?of?Vowels?by?Vocal-Tract?Length?and?its Application?to?Vowel?Identification,”ICASSP77(1977),首次提出應用去除說話人聲 道長度引起共振峰頻率漂移的思想來提高孤立元音的識別率。聲道不同的位置和形 狀決定了語音的產生,文獻,E.Eide?et?al.“A?Parametric?Approach?to?Vocal?Tract?Length Normalization,”ICASSP96(1996),認為說話人聲道最簡單的模型是一個長度從聲門 到唇的均勻管子,而且是一端開口一端封閉。他們還給出了不同歸整函數對最后識 別性能的影響。基于這種均勻管道的模型,說話人聲道長度的影響等于語音信號共 振峰的中心頻率乘以聲道長度的倒數。通常說話人聲道長度從女生的13cm左右到男 生的18cm以上,這些變化對語音識別都是不利的。聲道長度歸整技術的思想就是找 到某個歸整函數把訓練和測試的數據都變換到一個與說話人聲道長度無關的數據 域。基于管道模型的理論,共振峰隨聲道長度線性變化。大多數情況下歸整函數只 依賴于一個簡單的特征歸整因子。具體實施就是尋找每個說話人最佳歸整因子,然 后通過該歸整因子對頻率軸拉伸或壓縮來消除說話人聲道長度不同而帶來的影響。 聲道長度歸整技術的原理很簡單,但是有效的具體實施是相當困難的。最大的挑戰 是如何從有限的數據中有效的估算出最佳的歸整因子。傳統相當多的方法是基于最 大似然估計的兩遍解碼的方法,通過對歸整前聲學特征進行一遍解碼得到說話人說 話內容,用說話內容的文本信息和不同歸整因子(通常是以一定步長遍歷)歸整后 的特征在聲學模型上做強制性對齊,用似然值最大的歸整因子作為該人的最佳歸整 因子。這種方法能取得很不錯的效果,但是需要兩遍解碼時間。文獻,L.Lee?et al.“Speaker?Normalization?using?Efficient?Frequency?Warping?Procedures,”ICASSP96 (1996),提出了一些較為成功的方法。對于訓練數據,他們提出了一種跌代的方法, 用一半訓練數據訓練一個聲學模型,拿這個聲學模型估算另外一半數據的歸整因子, 然后用歸整后的數據在原來的聲學模型上重新估算新的聲學模型。測試的時提出了 一種文本無關的方法,選用了歸整因子相關的GMM(Gaussian?Mixture?Model)模型, 省掉了第一遍解碼時間。上述求歸整因子方法都是說話人相關,文獻,S.Wegmann?et al.“Speaker?Normalization?on?Conversational?Telephone?Speech”ICASSP96(1996),提 出了一種快速的句子相關的聲道長度歸整方法,讓聲道長度歸整方法可以在半離線 下工作提供了可能。現在報道的方法都取得了很不錯的識別效果,但是這些方法多 少有一定的局限性,都需要一定量先驗數據,所以只能工作在離線或者半離線的方 式下,難以應用于實際的系統中。在實際的系統中,特別是在線的系統,說話人信 息和說話的內容是未知的,而且系統不能容許比較長的延時,現有的方法中難以找 到一個合適的解決方案,所以很難用上聲道長度歸整技術。
發明內容
本發明的目的在于:克服已有技術的缺陷,提供一種讓聲道長度歸整技術能應 用在在線的語音識別系統中的快速可在線應用的聲道長度歸整方法。
本發明的目的是這樣實現的:
本發明的快速可在線應用的聲道長度歸整方法,包括訓練階段和測試階段,具 體步驟如下:
1)在訓練階段訓練一個與聲道長度無關的歸整后的聲學模型;
2)根據不同的歸整因子對訓練數據分類,訓練多類GMM;
3)測試時分段在多類GMM打分,快速計算聲道長度歸整因子;
4)根據識別系統的實時性需求選擇不同的段數,更新聲道長度歸整因子;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810097981.0/2.html,轉載請聲明來源鉆瓜專利網。





