[發明專利]一種基于非線性特征補償的魯棒語音識別方法有效
| 申請號: | 201711112816.3 | 申請日: | 2017-11-13 |
| 公開(公告)號: | CN107818780B | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 呂勇 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/20;G10L21/02 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 非線性 特征 補償 語音 識別 方法 | ||
本發明公開一種基于非線性特征補償的魯棒語音識別方法,假設每個Mel通道上的語音特征參數只受本通道噪聲的影響,通過含噪語音和純凈語音之間的非線性變換關系對本通道的含噪語音特征參數進行變換,得到與純凈語音聲學模型相匹配的測試語音特征參數。用于每個Mel通道非線性特征變換的噪聲參數通過使本通道GMM的輸出概率最大來確定。本發明的技術方案對噪聲環境下提取的含噪語音特征進行非線性補償,具有運算量小、靈活性好、與后端識別器無關的優點。
技術領域
本發明屬于語音識別領域,具體涉及到在對數譜域對含噪語音信號的特征向量進行非線性特征補償,使之與預先訓練的聲學模型相匹配的魯棒語音識別方法。
背景技術
在語音信號的傳輸過程中,不可避免的要受到背景噪聲的干擾,這就可能使實際環境中提取的含噪語音特征與預先訓練的聲學模型不匹配,從而導致語音識別系統的性能嚴重惡化。
一般來說,減小環境失配影響的魯棒語音識別技術可以分為前端特征域方法和后端模型域方法。前者對測試語音的特征參數進行補償,使之與預先訓練的聲學模型相匹配;后者利用測試環境下的少量自適應數據,對預先訓練的聲學模型的參數進行變換,使之與測試環境相匹配,直接對測試語音進行識別。特征域方法具有計算量較小、與后端識別器無關,靈活性好的優點。而模型域方法的補償精度更高,但是其計算量較大,實時性較差。
在前端特征域,基于模型的特征補償是一種有效的噪聲魯棒語音識別技術,它對預先訓練的純凈語音高斯混合模型(GMM:Gaussian Mixture Model)進行參數變換,通過最小均方誤差方法從含噪測試語音中估計純凈語音特征參數。基于模型的特征補償方法雖然具有精度較高,補償性能較好的優點,但是與模型域方法類似,它也涉及較為復雜的矩陣運算,計算量較大,不適用于運算性能較差的移動終端設備。因此有必要尋求更加高效的特征補償方法,以便在計算復雜度和補償精度之間取得更好的平衡。
發明內容
發明目的:針對現有技術中存在的問題,本發明提供了一種基于非線性特征補償的魯棒語音識別方法。在該方法中,假設每個Mel通道上的語音特征參數只受本通道噪聲的影響,通過含噪語音和純凈語音之間的非線性變換關系對本通道的含噪語音特征參數進行變換,即可得到與純凈語音聲學模型相匹配的測試語音特征參數。
本發明的具體步驟如下:
(1)對純凈訓練語音進行預處理、快速傅里葉變換(FFT:Fast FourierTransform)和Mel濾波,并對濾波后的各Mel通道系數取對數,得到訓練語音的對數譜參數;
(2)用所有語音單元的純凈語音對數譜參數訓練生成一個協方差矩陣都是對角矩陣的高斯混合模型;
(3)對含噪測試語音進行預處理、FFT和Mel濾波,并對濾波后的各Mel通道系數取對數,得到含噪測試語音的對數譜參數;
(4)在每個Mel通道上,通過使本通道的GMM輸出概率最大來確定含噪語音與純凈語音之間的非線性變換參數;
(5)在每個Mel通道上,用含噪語音與純凈語音之間的非線性變換關系對本通道的含噪語音特征參數進行變換,得到與純凈語音聲學模型相匹配的測試語音對數譜參數;
(6)對非線性特征補償后的對數譜參數作離散余弦變換(DCT:Discrete CosineTransform),得到美爾頻率特征參數(MFCC:Mel Frequency Cepstral Coefficients),用于語音識別系統的后端聲學解碼。
附圖說明
圖1為基于非線性特征補償的魯棒語音識別系統的總體框架,主要包括預處理、FFT、Mel濾波、取對數、非線性特征補償和DCT模塊。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711112816.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于智能語音鼠標的交互系統
- 下一篇:一種通話語音處理方法、移動終端





