[發明專利]一種基于非線性特征補償的魯棒語音識別方法有效
| 申請號: | 201711112816.3 | 申請日: | 2017-11-13 |
| 公開(公告)號: | CN107818780B | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 呂勇 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/20;G10L21/02 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 非線性 特征 補償 語音 識別 方法 | ||
1.一種基于非線性特征補償的魯棒語音識別方法,其特征在于,包括以下步驟:
(1)對純凈訓練語音進行預處理、快速傅里葉變換(FFT:Fast Fourier Transform)和Mel濾波,并對濾波后的各Mel通道系數取對數,得到訓練語音的對數譜參數;
(2)用所有語音單元的純凈語音對數譜參數訓練生成一個協方差矩陣都是對角矩陣的高斯混合模型;
(3)對含噪測試語音進行預處理、FFT和Mel濾波,并對濾波后的各Mel通道系數取對數,得到含噪測試語音的對數譜參數;
在對數譜域,加性噪聲對語音的影響用如下函數來描述:
y=log[exp(x)+exp(n)] (1)
其中,y、x和n分別表示含噪語音、純凈語音和加性噪聲的對數譜特征參數;
在第k個Mel通道上,式(1)表示為:
y(k)=log[exp(x(k))+exp(n(k))] (2)
其中,y(k)、x(k)和n(k)分別表示y、x和n在第k個Mel通道的系數;
(4)在每個Mel通道上,通過使本通道的GMM輸出概率最大來確定含噪語音與純凈語音之間的非線性變換參數;
(5)在每個Mel通道上,用含噪語音與純凈語音之間的非線性變換關系對本通道的含噪語音特征參數進行變換,得到與純凈語音聲學模型相匹配的測試語音對數譜參數;
通過下式對第k個Mel通道的含噪語音對數譜系數y(k)進行非線性補償,得到純凈語音對數譜系數x(k)的估計值
其中,為噪聲參數,通過使GMM在該Mel通道上的輸出概率最大來估計:
其中n表示所有可能的對數譜噪聲參數;
(6)對非線性特征補償后的對數譜參數作離散余弦變換(DCT:Discrete CosineTransform),得到美爾頻率特征參數(MFCC:Mel Frequency Cepstral Coefficients),用于語音識別系統的后端聲學解碼。
2.根據權利要求1所述的一種基于非線性特征補償的魯棒語音識別方法,其特征在于:設n的取值范圍是nmin<n<nmax,為了提高搜索效率,首先將區間[nmin,nmax]分成10個子區間,每個子區間再分成5個更小的子區間,這樣,求時,先確定一個使P(y(k)|n)最大的子區間,再在該子區間中搜索P(y(k)|n)的最大值,得到
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711112816.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于智能語音鼠標的交互系統
- 下一篇:一種通話語音處理方法、移動終端





