[發明專利]一種基于瓶頸特征的復雜音頻分割聚類方法在審
| 申請號: | 201710101550.6 | 申請日: | 2017-02-24 |
| 公開(公告)號: | CN106952644A | 公開(公告)日: | 2017-07-14 |
| 發明(設計)人: | 李艷雄;王琴;李先苦;張雪;張聿晗 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/26;G10L25/24;G10L25/30;G10L25/51;G06F17/30 |
| 代理公司: | 廣州市華學知識產權代理有限公司44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 瓶頸 特征 復雜 音頻 分割 方法 | ||
技術領域
本發明涉及音頻信號處理與模式識別技術,特別涉及一種基于瓶頸特征的復雜音頻分割聚類方法。
背景技術
隨著多媒體采集設備、互聯網及云存儲平臺的發展與普及,海量復雜音頻內容分析與檢索的需求日益迫切。復雜音頻分割、聚類作為一種無監督的方法,是音頻內容分析的重要手段之一。雖然可以采用人工標注的方法找出音頻流中的各音頻類型,但人工標注成本高、主觀性強、效率低,而有監督的音頻分類方法需要預先知道音頻流中的音頻類型、提前訓練特定類型的分類器。因此無監督的復雜音頻分割、聚類方法應用范圍更廣,更適合海量復雜音頻數據的內容分析。
傳統的復雜音頻分割聚類方法采用的特征大多來源于語音識別領域,如梅爾頻率倒譜系數,感知線性預測系數等。由于復雜音頻中的各類音頻事件來源各異,沒有語音那樣的特定結構單元(音素或音節),在語音識別中能有效刻畫語音單元差異的傳統音頻特征并不一定能有效刻畫復雜音頻類型之間的特性差異。因此,提取有效刻畫復雜音頻類型差異的特征是提升復雜音頻分割與聚類性能的關鍵。
發明內容
本發明的目的在于克服現有技術的不足和缺點,提供一種基于瓶頸特征的復雜音頻分割聚類方法:首先訓練一個帶瓶頸層的深度神經網絡;接著,提取復雜音頻流的音頻特征并輸入深度神經網絡,從深度神經網絡的瓶頸層提取瓶頸特征;以瓶頸特征作為輸入,采用基于貝葉斯信息準則的音頻分割方法對復雜音頻流進行分割,使得每個音頻段只包含一種音頻類型,相鄰音頻段的音頻類型不同;最后,采用譜聚類算法對分割后的音頻段進行聚類,得到復雜音頻中的音頻類型個數,并將相同音頻類型的音頻段合并在一起。
本發明的目的通過以下技術方案實現:一種基于瓶頸特征的復雜音頻分割聚類方法,其特征在于,包括如下步驟:
S1、帶瓶頸層的深度神經網絡構造:讀入訓練數據并提取梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficients,MFCC)特征,再通過無監督預訓練和有監督精確調整兩個步驟構造一個帶瓶頸層的深度神經網絡(Deep Neural Network,DNN)特征提取器;
S2、端點檢測:讀入復雜音頻流,通過基于門限判決的靜音檢測方法找出音頻流中所有的靜音段和非靜音信號段,并將各個非靜音信號段拼接成一個長信號段;
S3、瓶頸特征提取:提取上述長信號段的MFCC特征并輸入DNN特征提取器,從DNN特征提取器的瓶頸層提取瓶頸特征;
S4、音頻分割:采用基于貝葉斯信息準則(Bayes Information Criterion,BIC)的方法檢測長信號段中的音頻類型改變點,根據這些改變點把長信號段分割成若干個音頻段,使得每個音頻段只包含一種音頻類型且相鄰音頻段的音頻類型不同;
S5、音頻聚類:采用譜聚類算法對各音頻段進行聚類,得到音頻類型個數,并將相同音頻類型的音頻段合并在一起。
優選的,步驟S1中帶瓶頸層的深度神經網絡構造具體包括以下步驟:
S1.1、讀入訓練數據并提取MFCC特征,具體步驟如下:
S1.1.1、預加重:設置數字濾波器的傳遞函數為H(z)=1-αz-1,其中α為一個系數且取值為:0.9≤α≤1,讀入的音頻流通過該數字濾波器后實現預加重;
S1.1.2、分幀:設置音頻幀的幀長為25毫秒、幀移為10毫秒,幀長和幀移所對應的采樣點個數分別為N=0.025×fs和S=0.01×fs,其中fs為音頻采樣頻率,將讀入的音頻流切分成音頻幀xt'(n),1≤t≤T,0≤n≤N-1,其中T和N分別表示幀數和每幀的采樣點數;
S1.1.3、窗函數ω(n)為漢明窗:
將每幀音頻信號xt'(n)與漢明窗ω(n)相乘得到加窗后的音頻信號xt(n):
xt(n)=ω(n)×xt'(n) n=0,1,...,N-1;t=1,2,...,T
S1.1.4、提取MFCC特征:
S1.1.4.1、對第t幀音頻信號xt(n)做離散傅立葉變換(Discrete Fourier Transformation,DFT)得到線性頻譜Xt(k):
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710101550.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:木塑裝潢板預切割裝置
- 下一篇:可用于異形石材加工的橋式切石機





