[發明專利]基于核主成分分析改進Mel濾波器的語音特征提取方法有效
| 申請號: | 201710100827.3 | 申請日: | 2017-02-23 |
| 公開(公告)號: | CN106898362B | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 張毅;倪雷 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G10L25/18 | 分類號: | G10L25/18;G10L25/24;G10L15/02;G10L15/20 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅;李金蓉 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 成分 分析 改進 mel 濾波器 語音 特征 提取 方法 | ||
本發明公開了一種基于核主成分分析改進Mel濾波器的語音特征提取方法包括步驟:S1,對初始輸入語音信號數字化采樣、預加重和分幀加窗等處理得到預處理后的語音信號;S2,根據伽馬通濾波器特性計算處理后語音信號的伽馬通濾波倒譜系數特征;S3,提取伽馬通濾波倒譜系數的滑動差分;S4,計算預處理語音信號的基音頻率;S5,根據融合公式對伽馬通濾波倒譜系數、滑動差分和基音頻率進行特征數據融合;S6,根據核主成分分析對數據融合后語音特征轉換降維。本發明可獲得更具魯棒性的特征參數。
技術領域
本發明涉及語音信號處理領域,特別是一種改進Mel濾波器的語音特征提取方法。
背景技術
語音信號的特征提取是對輸入語音信號在其含有背景噪聲的情況下,提取能夠有效表征語音信號的特征參數。它解決了環境噪聲惡化情形下語音識別系統的識別性能急劇下降的問題。
在對特征參數選擇的問題上,目前主流的研究熱點是共振峰頻率、線性預測系數(LPC)、線譜對(LSP)、線性預測倒譜系數(LPCC)、基于人耳聽覺特性的梅爾倒譜系數(MFCC)、伽馬通濾波倒譜系數(GFCC)。在信噪比較高情形時基于MFCC的語音識別結果會受到嚴重影響,識別率急劇地下降,而GFCC是基于聲道模型的特征向量,相比MFCC對于環境噪聲的魯棒性更強。標準的GFCC只反映了語音參數的靜態特性,而人耳對語音的動態特性更高敏感,二次特征提取就是對原始的GFCC進行分析處理。運用滑動差分方法,進一步得到隱藏在語音特征背后的特征信息。
基音頻率是語音識別系統中最重要的判別依據,反映了語音信號的濁音發聲時聲帶振動的頻率,能夠有效區分語音信息與噪聲信號。基于單一特征的識別率往往受其他因素影響惡劣,因此融合GFCC和基音頻率兩種特征參數作為語音特征,兩種參數體現了不同的語音特性,GFCC利用了人耳聽覺的非線性特性,更具有魯棒性;基音頻率體現了不同信號聲學特征。
自適應融合特征后的語音信號存在兩個問題:一是特征矩陣過大,存在降維計算需要;二是信息之間存在冗余,不利于后續處理。因此利用核主成分分析方法對融合特征數據進行轉換降維,降低了計算復雜度,提高了識別的實時性。將核函數和主成分分析兩種方法進行結合,通過非線性映射實現輸入空間到特征空間的轉換,求取其協方差矩陣C及其特征值和特征向量,最后進行主成分抽取。
發明內容
本發明旨在解決現有方法中存在的特征參數魯棒性低問題,特別提出了一種基于核主成分分析改進Mel濾波器的語音特征提取方法。
為了實現本發明的上述目的,本發明提供了一種基于核主成分分析改進Mel濾波器的語音特征提取方法,包括以下步驟:
S1對初始輸入語音信號進行數字化采樣、預加重和得到預處理語音信號。
S2根據伽馬通濾波器計算預處理語音信號的伽馬通濾波倒譜系數。
S3對伽馬通濾波倒譜系數進行滑動差分處理。
S4根據自相關函數對預處理語音信號進行基音頻率提取。
S5根據融合公式對伽馬通濾波倒譜系數、滑動差分和基音頻率進行特征數據融合。
S6根據核主成分分析對特征數據融合后的語音特征進行降維處理。
上述方法中預加重的傳遞函數為:
H(z)=1-a*z-1
其中,a是預加重的系數,在通常情況下,a的值為0.95時處理的語音信號效果較好;H(z)表示傳遞函數,z表示函數變量。
所述分幀加窗處理中采用的加窗函數為:
w(n)表示窗函數,L表示窗函數的長度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710100827.3/2.html,轉載請聲明來源鉆瓜專利網。





