[發明專利]一種基于高斯均值超矢量與譜聚類的錄音設備聚類方法在審
| 申請號: | 201710101547.4 | 申請日: | 2017-02-24 |
| 公開(公告)號: | CN106952643A | 公開(公告)日: | 2017-07-14 |
| 發明(設計)人: | 李艷雄;張雪;李先苦;張聿晗 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L25/24;G10L25/45;G10L25/51;G06F17/30 |
| 代理公司: | 廣州市華學知識產權代理有限公司44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 均值 矢量 譜聚類 錄音 設備 方法 | ||
1.一種基于高斯均值超矢量與譜聚類的錄音設備聚類方法,其特征在于,包括下述步驟:
S1、讀入語音:讀入由不同錄音設備采集的語音樣本;
S2、預處理:對讀入的語音樣本進行預加重、分幀和加窗處理;
S3、提取特征:從每幀語音中提取梅爾頻率倒譜系數MFCC特征;
S4、訓練通用背景模型:以全部語音樣本的梅爾頻率倒譜系數MFCC特征作為輸入,采用期望最大化EM算法訓練生成一個通用背景模型UBM;
S5、訓練高斯混合模型:以某個語音樣本的梅爾頻率倒譜系數MFCC特征作為輸入,采用最大后驗概率MAP算法更新通用背景模型UBM參數,得到該語音樣本對應的高斯混合模型GMM;
S6、構造高斯均值超矢量:將某個高斯混合模型GMM的所有高斯分量的均值矢量依次拼接,構成該高斯混合模型GMM的高斯均值超矢量;
S7、錄音設備聚類:采用譜聚類算法對全部語音樣本的高斯均值超矢量進行聚類,估計錄音設備個數并將相同錄音設備的語音樣本合并。
2.根據權利要求1所述的一種基于高斯均值超矢量與譜聚類的錄音設備聚類方法,其特征在于,所述步驟S2中語音預處理包括以下步驟:
S2.1、預加重:設置數字濾波器的傳遞函數為H(z)=1-αz-1,其中α為一個系數且取值為:0.9≤α≤1,讀入的語音通過該數字濾波器后實現預加重;
S2.2、分幀:設置語音幀的幀長為25毫秒、幀移為10毫秒,幀長和幀移所對應的采樣點個數分別為N=0.025×fs和S=0.01×fs,其中fs為語音采樣頻率,將讀入的語音切分成語音幀x′t(n),1≤t≤T,0≤n≤N-1,其中T和N分別表示語音幀數和每幀語音的采樣點數;
S2.3、加窗:窗函數ω(n)為漢明窗:
將每幀語音x′t(n)與漢明窗ω(n)相乘得到加窗后的語音xt(n):
xt(n)=ω(n)×x′t(n)n=0,1,...,N-1;t=1,2,...,T。
3.根據權利要求1所述的一種基于高斯均值超矢量與譜聚類的錄音設備聚類方法,其特征在于,所述步驟S3中提取語音信號特征的步驟如下:
S3.1、對第t幀語音xt(n)做離散傅立葉變換得到線性頻譜Xt(k):
S3.2、將上述線性頻譜Xt(k)通過梅爾頻率濾波器組得到梅爾頻譜,再進行對數運算得到對數頻譜St(m),其中梅爾頻率濾波器組為若干個帶通濾波器Hm(k),0≤m<D,D為濾波器的個數,每個濾波器具有三角形濾波特性,其中心頻率為f(m),當m值較小時相鄰f(m)的間隔較小,隨著m的增加相鄰f(m)的間隔逐漸變大,每個帶通濾波器的傳遞函數為:
其中,0≤m<D,f(m)定義如下:
其中,fl、fh為濾波器的最低頻率和最高頻率,B-1為B的逆函數:
B-1(b)=700(eb/1125-1)
因此由線性譜Xt(k)到對數譜St(m)的變換為:
S3.3、采用離散余弦變換將上述對數頻譜St(m)變換到倒譜域,得到第t幀的MFCC特征,即Ct(p):
S3.4、對每幀語音重復步驟S3.1-S3.3,得到所有T幀語音的梅爾頻率倒譜系數MFCC特征,將它們按幀的順序組合成一個梅爾頻率倒譜系數MFCC特征矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710101547.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種硬質木板專用鉆頭
- 下一篇:一種切片機主輥





