[發明專利]一種基于KL散度的音頻特征提取方法有效
| 申請號: | 201810930863.7 | 申請日: | 2018-08-15 |
| 公開(公告)號: | CN109036382B | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 楊玉紅;張會玉;馮佳倩;胡瑞敏;艾浩軍;涂衛平;王曉晨 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L25/21;G10L25/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 kl 音頻 特征 提取 方法 | ||
本發明公開了一種基于KL散度的音頻特征提取方法,包括:按類讀取訓練集中的音頻文件,然后轉化成對應的功率譜,計算得到訓練集中不同聲學場景的類間KL散度矩陣,劃分KL濾波器的頻率群,設計出KL濾波器;將訓練集的功率譜通過KL濾波器,提取出基于類間KL散度的頻譜特征;將KL頻譜特征取對數并歸一化后輸入到卷積神經網絡進行訓練得到聲學模型;讀取測試集的音頻文件,然后轉化成對應的功率譜,通過KL濾波器提取出測試集對應的KL頻譜特征;將測試集的KL頻譜特征輸入訓練好的聲學模型進行測試和評估,得到最終的聲場景分類模型準確率。本發明應用到其他聲場景分類事件中,可得到比傳統的基于人耳的Mel特征提取方法更好的性能。
技術領域
本發明屬于聲學技術領域,涉及一種音頻特征提取方法,尤其涉及一種基于KL散度的聲學場景分類的音頻特征提取方法。
背景技術
隨著互聯網和各種移動終端的快速發展,人們日常可以接觸到的視頻、音頻信息呈爆發性增長。聲音承載有關于我們日常環境和物理事件的大量信息。近年來,如何高效利用這些數量大且信息量豐富的音頻數據,給我們生活提供更加便利的服務成為迫切需要。聲場景分類(Acoustic Scene Classification,ASC)的目標就是通過分析語音片段,判別出該語音所發生的場景,例如沙灘,公園,咖啡館等。ASC是計算機聽覺場景分析(Computational Auditory Scene Analysis,CASA)領域的一種特定任務,它的目標是讓計算機像人耳一樣能夠識別音頻發生環境,進而達到感知和理解周邊環境的目的。ASC的實現主要依靠信號處理技術和機器學習方法達到自動識別音頻場景的目的。
正是由于ASC可以感知和理解周邊環境,因此目前已將它應用到移動終端和可穿戴設備上給人們提供個性化的定制服務。例如將ASC運用到機械輪椅上,輪椅會根據感知到所處環境在室內還是室外,自動切換兩種服務模式;將ASC運用到智能手機設備上,手機會根據感知到使用者所處的環境,將一些設置進行轉換,提供更好的用戶體驗;此外,還將ASC運用到軍事刑偵等方面。ASC性能最后的好壞很大程度由訓練模型所用數據集的規模以及提取到的特征所決定。
ASC應用前景廣泛,2013年起,為了評測現有的環境聲音檢測方法,電子和電氣工程師學會音頻和聲學信號處理協會(Institute of Electrical and ElectronicsEngineers Audio and Acoustic Signal Process,IEEE AASP)開始舉辦聲學場景和事件的檢測與分類挑戰賽(Detection and Classification of Acoustic Scenes andEvents,DCASE)。其中的任務一就是ASC。DCASE比賽已經分別于2013年、2016年和2017年舉辦。在DCASE 2017的聲學場景分類比賽的評測結果顯示,前五名均采用了CNN模型。基于卷積神經網絡(Convolutional Neural Network,CNN)的深度學習方法已經取代傳統的基于概率的學習模型成為主流方法。
在ASC任務中,一般的方法是信號處理將音頻文件轉換成特征,然后進行模式匹配。目前在語音處理方面最為廣泛使用的特征是基于梅爾濾波器下采樣得到的梅爾譜圖(Mel Frequency Spectrogram,MFS)。但梅爾標度是基于人耳的感知特性設計,這種主觀測度與聲場景模式匹配特性是否契合也是值得研究的問題。
傳統的非深度學習的方法提取各種時域和頻域特征,提升聲場景分類的性能。如2002年,Peltonen等人提取過零率、幀短時平均能量等時域特征,子帶能量比、譜中心、相鄰幀譜變化測度和梅爾頻率倒譜系數(Mel-frequency cepstral coefficient,MFCC)等頻域特征,用高斯混合模型(Gaussian Mixture Model,GMM)和K近鄰(k-nearest neighbor,KNN)分類器融合進行聲場景識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810930863.7/2.html,轉載請聲明來源鉆瓜專利網。





