[發(fā)明專利]基于融合特征MGFCC的說話人二次特征提取方法在審
| 申請?zhí)枺?/td> | 201710322792.8 | 申請日: | 2017-05-09 |
| 公開(公告)號: | CN107274887A | 公開(公告)日: | 2017-10-20 |
| 發(fā)明(設計)人: | 張毅;王可佳;顏博;樂聰聰 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/20;G10L17/02;G10L19/02;G10L19/26;G10L25/24;G10L25/45;G06K9/00 |
| 代理公司: | 重慶市恒信知識產權代理有限公司50102 | 代理人: | 劉小紅,李金蓉 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 融合 特征 mgfcc 說話 二次 提取 方法 | ||
技術領域
本發(fā)明涉及說話人識別技術領域,特別涉及一種基于融合特征MGFCC的說話人二次特征提取方法。
背景技術
說話人語音經過前面一系列的預處理之后,需要對其進行特征提取計算,從而產生一個數(shù)學矢量序列來作為說話人識別系統(tǒng)中訓練與識別過程的輸入,因此提取特征的優(yōu)劣對說話人識別模型的訓練和參數(shù)的確定尤為重要,影響著整個說話人系統(tǒng)的設計及其性能。
說話人特征的選取與后續(xù)說話人識別系統(tǒng)的性能提升有直接影響,是說話人識別系統(tǒng)建立的根本。對實際應用場景中的說話人識別系統(tǒng),特征參數(shù)的選取不僅要考慮識別率,更要保證整個系統(tǒng)性能的穩(wěn)定性及魯棒性。因此為提取出最優(yōu)的說話人特征參數(shù)是整個說話人識別系統(tǒng)中尤為重要的處理過程,同時也是語音信號處理中的難點之一,對說話人的識別性能有直接影響。
發(fā)明內容
為提高說話人識別系統(tǒng)在噪聲環(huán)境下的識別率,本發(fā)明站在仿生的角度上基于人耳聽覺特性對說話人特征提取進行研究,首先選擇利用基于人耳聽覺特性的Gammatone濾波器組與Mel濾波器組分別對人耳耳蝸模型進行模擬,然后根據(jù)Mel頻率倒譜系數(shù)和Gammatone頻率倒譜系數(shù)在噪聲環(huán)境下的區(qū)分度進行特征融合,得到一種基于人耳聽覺特性的說話人融合特征MGFCC。
為了實現(xiàn)上述目的本發(fā)明采用如下技術方案:基于融合特征MGFCC的說話人二次特征提取方法,其特征在于,包括以下步驟:
S1:利用Mel濾波器對說話人語音信號進行處理得到MFCC特征;
S2:同時利用Gammatone濾波器對說話人語音信號進行處理得到GFCC特征;
S3:分別計算MFCC特征和GFCC特征在噪聲環(huán)境下的各維特征區(qū)分度FR;
S4:分別統(tǒng)計MFCC特征和GFCC特征的每一維特征處于最大特征區(qū)分度的次數(shù);
S5:根據(jù)步驟S4統(tǒng)計的兩種特征在噪聲背景下的最大特征區(qū)分度次數(shù)進行特征融合;
S6:對步驟S5獲得的融合特征進行微分和特征重組得到二次提取特征。
步驟S1所述MFCC特征提取的方法為:
S11:對說話人語音信號進行預加重處理:采用數(shù)字濾波器對說話人語音信號進行處理,其Z域中的傳遞函數(shù)為:H(z)=1-0.95z-1;
S12:對步驟S11處理后的信號進行分幀加窗,其中每一幀含有N個采樣點,窗函數(shù)為w(n),則加窗后的語音信號sw(n)為:
sw(n)=y(tǒng)(n)*w(n)
式中,y(n)為預加重之后的信號,0≤n≤N;
窗函數(shù)選用主瓣較寬且旁瓣較低的漢明窗:
S13:快速傅里葉變換:將S12處理后的信號進行快速傅里葉變換,從時域數(shù)據(jù)變換到頻域,得到語音線性頻譜X(k)為:
S14:對每一幀快速傅里葉變換后的數(shù)據(jù)計算譜線能量:E(k)=[X(k)]2;
S15:對每個Mel濾波器的輸出作對數(shù)運算,可得對數(shù)頻譜S(m)為:
Hm(k)表示Mel濾波器的頻率響應,M表示Mel濾波器的個數(shù)。
S16:對對數(shù)頻譜S(m)進行離散余弦變換變換,進而得到特征MFCC,則第n維特征C(n)為:
步驟S2所述GFCC特征的提取方法為:
S21:說話人語音信號s(n)經過預處理之后,轉化為時域信號x(n),通過快速傅里葉變換得到離散功率譜L(k),
S22:取上述離散功率譜L(k)的平方得到語音能量譜,然后采用Gammatone濾波器組對其進行濾波;
S23:對每一個濾波器的輸出進行指數(shù)壓縮,得到一組能量頻譜s1,s2,s3,…,sM為:
式中,e(f)為指數(shù)壓縮值,M為濾波器通道數(shù),1≤m<M,Hm(k)表示Gammatone濾波器的頻率響應。本發(fā)明中Hm(k)均表示濾波器的頻率響應。
S24:對壓縮后的能量譜作DCT變換,求得GFCC特征,其運算公式為:
式中,L為特征參數(shù)的維數(shù)。CGFCC(j)表示不同維數(shù)的GFCC特征參數(shù),M表示濾波器個數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710322792.8/2.html,轉載請聲明來源鉆瓜專利網。





