[發明專利]一種基于卷積神經網絡和隨機森林的音頻分類方法在審
| 申請號: | 201810037337.8 | 申請日: | 2018-01-16 |
| 公開(公告)號: | CN108122562A | 公開(公告)日: | 2018-06-05 |
| 發明(設計)人: | 彭德中;付煒 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G10L25/54 | 分類號: | G10L25/54;G10L25/45;G10L25/30;G10L25/27;G10L25/18;G06N3/04;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610065 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積神經網絡 隨機森林 頻譜圖 高層特征 音頻分類 分類器 隨機森林分類器 原始音頻數據 原始音頻文件 傅里葉變換 特征提取器 測試過程 繁瑣過程 能力不足 頻譜分析 手動構造 特征提取 提取特征 準確率 分幀 加窗 分段 替換 | ||
本發明公開了一種基于卷積神經網絡和隨機森林的音頻分類方法,該方法包括:S1:對原始音頻數據集進行頻譜分析,包括分段、分幀、加窗、傅里葉變換,得到原始音頻文件對應的頻譜圖;S2:以得到的頻譜圖作為輸入,訓練一個卷積神經網絡特征提取器;S3:去掉卷積神經網絡的softmax層,提取頻譜圖的高層特征;S4:利用提取的頻譜圖高層特征訓練隨機森林分類器;S5:基于卷積神經網絡提取的高層特征,利用訓練好的隨機森林進行音頻分類。本發明基于卷積神經網絡做特征提取,避免了手動構造提取特征的繁瑣過程,同時針對采用softmax作為卷積神經網絡分類器導致泛化能力不足的問題,采用隨機森林替換掉卷積神經網絡的softmax層,作為最終的分類器。在測試過程中取得了較高的準確率和召回率。
技術領域
本發明屬于機器學習領域,涉及一種基于卷積神經網絡和隨機森林的音頻分類方法。
背景技術
互聯網和多媒體技術的發展讓我們的生活充斥著大量的音頻,尤其是各種音樂網站,擁有數量龐大且風格迥異的音頻文件。面對海量的音頻,音頻檢索能幫助我們快速準確地找到所需的音頻文件。音頻分類是音頻檢索的前提,但對大量音頻文件進行人工分類卻是一項十分耗時且乏味的工作。隨著人的聽覺疲勞,人工分類的準確率也會有所降低。針對大量音頻文件,快速準確的自動分類顯得十分有必要。有關音頻分類方法的研究較多,例如采用基于隱馬爾可夫模型和支持向量機混合的兩級音頻分類方法,先利用隱馬爾可夫模型對音頻進行初步分類,確定最可能的兩種分類結果,再用相應的支持向量機分類器做最終判決。還有根據音頻內容間的相似度對音頻進行分類的方法,用每個音頻的音高集代表該音頻文件,以LDA主題模型對音頻分類。也有采用高斯混合模型、決策樹等作為分類器進行分類的。但這些方法大都采用傳統的方式手工構造特征,既繁瑣,提取的特征也不夠充分。而且采用單一的分類器,導致模型的泛化能力不強。
近年來,深度學習逐漸火熱,其結構含有多隱層,通過組合底層特征形成更加抽象的高層表示屬性或特征,能更好的挖掘數據的分布式表示特征,比傳統手動構造特征的方式效果更好。針對現狀及上述問題,有必要設計一種基于深度學習的音頻分類方法。
發明內容
本發明所要解決的技術問題是提供一種基于卷積神經網絡和隨機森林的音頻分類方法,該方法采用卷積神經網絡自動提取高層特征,采用隨機森林解決單一分類器泛化能力不強的問題,具有較高的準確率和召回率。
發明技術解決方案如下:
一種基于卷積神經網絡和隨機森林的音頻分類方法,包括以下步驟。
步驟1:對原始音頻文件進行頻譜分析,獲取其對應的頻譜圖。由于音頻文件往往較長,直接對原始音頻做頻譜分析得到的頻譜圖過大,導致后期訓練模型占用系統資源較多。所以對原始音頻采取適當分段,再對每段音頻做頻譜分析,包括分幀、加窗、短時傅里葉變換等過程。假設是一個長序列,是長度為N的窗函數,用給加加窗,得到N點序列,即
在頻域上有
短時傅里葉變換的公式如下:
其中為原信號,為窗函數。通過頻譜分析,得到了音頻對應的頻譜圖。
步驟2:利用步驟1中得到的頻譜圖作為訓練集,訓練一個改進的卷積神經網絡。該網絡有14層,包括卷積層、下采樣層、Dropout層、Flatten層、全連接層、BatchNormalization層、softmax層等,采用交叉熵作為損失函數。各層具體說明如下:
輸入:尺寸為248*248的頻譜圖;
Layer1:卷積層,核尺寸為(5,5),64個,strides=1,輸出特征圖尺寸為(244,244);
Layer2:下采樣層,核尺寸為(2,2),輸出特征圖尺寸為(122,122);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810037337.8/2.html,轉載請聲明來源鉆瓜專利網。





