[發明專利]一種聯合優化深層變換特征與聚類過程的聲場景聚類方法有效
| 申請號: | 201910033838.3 | 申請日: | 2019-01-15 |
| 公開(公告)號: | CN109859771B | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 李艷雄;劉名樂;王武城;張聿晗 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G10L25/24 | 分類號: | G10L25/24;G10L25/30;G10L25/45;G10L25/51 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聯合 優化 深層 變換 特征 過程 聲場 景聚類 方法 | ||
1.一種聯合優化深層變換特征與聚類過程的聲場景聚類方法,其特征在于,所述的聲場景聚類方法包括如下步驟:
S1、提取對數梅爾譜特征:對各類聲場景的樣本進行預加重、分幀、加窗,然后分別提取每一音頻幀的對數梅爾譜特征;
S2、初始化各類及卷積神經網絡:將每個樣本作為一個初始類,初始化生成一個卷積神經網絡用于提取深層變換特征;
S3、更新卷積神經網絡,提取新的深層變換特征:根據類標簽及各類樣本更新卷積神經網絡參數,并用更新后的卷積神經網絡提取各類樣本的深層變換特征;
其中,所述的步驟S3中更新卷積神經網絡,提取新的深層變換特征的過程如下:
將提取的聲學特征輸入該網絡,得到新的深層變換特征;經過一定次數的聚類更新類標簽之后,根據損失函數與更新的類標簽,采用反向傳播算法更新網絡參數,使網絡所提取的深層變換特征更具區分性,從而得到更優的聚類結果;所述的損失函數公式如下:
表示當前第t類,表示與距離最近的類,Kc是一個表示類別數的常數,表示除外的其他相鄰類,A(·)是一個計算類間相似度的函數,表示第p階段的迭代次數;
S4、合并最相似的兩個類:采用凝聚分層聚類算法將相似度最大的兩個類合并在一起,得到新的類標簽和各類樣本,類數減一;
S5、聚類收斂判決:如果當前類數等于真實類數,則停止聚類,得到聯合優化的聲場景聚類結果和卷積神經網絡,否則跳到步驟S3。
2.根據權利要求1所述的一種聯合優化深層變換特征與聚類過程的聲場景聚類方法,其特征在于,所述的步驟S1中提取對數梅爾譜特征包括以下步驟:
S1.1、音頻數據采集與標注:在不同的場景采集音頻數據流,然后將每一個音頻數據流分割成一定長度的音頻段,三人或三人以上對音頻段進行人工標注,對于存在異議的音頻段標注,按照少數服從多數的原則確定最終的標簽;
S1.2、預加重:設置數字濾波器的傳遞函數為H(z)=1-αz-1,其中α為一個系數且取值為:0.9≤α≤1,讀入的音頻段通過該數字濾波器后實現預加重;
S1.3、分幀、加窗:
S1.3.1、對音頻段進行分幀與加窗,幀長和幀移所對應的采樣點個數分別為N=0.025×fs和S=0.01×fs,其中fs為采樣頻率,將讀入的音頻段切分成音頻幀s′t(n),1≤t≤T,1≤n≤N,其中T和N分別表示幀數和每幀的采樣點數;
S1.3.2、采用漢明窗作為窗函數ω(n):
S1.3.3、將每幀音頻信號s′t(n)與漢明窗ω(n)相乘得到加窗后的音頻信號st(n):
st(n)=ω(n)×s′t(n)n=0,1,...,N-1,t=1,2,...,T;
S1.4、提取對數頻譜特征:
S1.4.1、對第t幀音頻信號st(n)做離散傅立葉變換得到線性頻譜Xt(k):
S1.4.2、將上述線性頻譜Xt(k)通過梅爾頻率濾波器組得到梅爾頻譜,再進行對數運算得到對數頻譜St(m),其中梅爾頻率濾波器組為若干個帶通濾波器Hm(k),0≤m<M,M為濾波器的個數,每個濾波器具有三角形濾波特性,其中心頻率為f(m),每個帶通濾波器的傳遞函數為:
其中,0≤m<M,f(m)定義如下:
其中,fl、fh為濾波器的最低頻率和最高頻率,B-1為B的逆函數:
B-1(b)=700(eb/1125-1),
因此由線性頻譜Xt(k)到對數頻譜St(m)的變換為:
S1.4.3、對每幀音頻信號重復步驟S1.3.1)~S1.4.2),得到所有音頻幀的上述對數頻譜St(m)特征,將它們按幀的順序組合成一個特征矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910033838.3/1.html,轉載請聲明來源鉆瓜專利網。





