[發明專利]基于卷積神經網絡的環境聲音識別方法及系統有效
| 申請號: | 201810862022.7 | 申請日: | 2018-08-01 |
| 公開(公告)號: | CN109065030B | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 張智超;徐樹公;曹姍;張舜卿 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/02;G10L15/06;G06N3/04 |
| 代理公司: | 上海交達專利事務所 31201 | 代理人: | 王毓理;王錫麟 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 環境 聲音 識別 方法 系統 | ||
一種基于卷積神經網絡的環境聲音識別方法及系統,將從音頻中提取得到的梅爾能量譜特征進行混合構建得到樣本庫,用于對卷積神經網絡模型進行訓練,最終以訓練后的卷積神經網絡進行環境聲音的識別,本發明在ESC?10、ESC?50和UrbanSound8K三個公開聲音數據集上取得了最好或者接近最好的結果。
技術領域
本發明涉及的是一種音頻處理領域的技術,具體是一種基于卷積神經網絡的環境聲音識別方法及系統。
背景技術
在音頻信息的研究中,環境聲音識別是一個重要的研究領域,其在安全監控、醫療監護、智能家居和場景分析等領域有著很大的應用潛力。相比于語音識別,環境聲音具有類噪、寬頻譜等特性,使得環境聲音的識別更具有挑戰性。
現有的基于卷積神經網絡和耳蝸譜圖的聲音事件識別方法、基于卷積神經網絡和隨機森林的聲音場景識別方法以及基于時頻域統計特征提取的環境聲音識別方法均具有適用范圍有限、特征提取不方便、對于噪聲的魯棒性較差等缺點。
發明內容
本發明針對現有技術存在的上述不足,提出一種基于卷積神經網絡的環境聲音識別方法及系統,能夠結合聲音梅爾能量譜有效提取特征的同時,使用混合構建的方法進行模型訓練,增強訓練樣本分布,提高模型魯棒性。本發明在ESC-10、ESC-50和UrbanSound8K三個公開環境聲音數據集上取得了目前最好或接近最好的識別準確度。
本發明是通過以下技術方案實現的:
本發明涉及一種基于卷積神經網絡的環境聲音識別方法,將從原始音頻中提取得到的梅爾能量譜特征進行混合構建得到樣本庫,用于對卷積神經網絡進行訓練,最終以訓練后的卷積神經網絡進行環境聲音的識別。
所述的提取,具體包括以下步驟:
①對原始音頻進行分幀后對每一幀進行FFT變換得到聲音的幅度譜其中:s(n)為聲音信號,1≤k≤N-1,經平方處理得到聲音的能量譜P(k)=|S(k)|2;
②利用梅爾濾波器組將聲音的能量譜轉換到梅爾頻率表示,具體為:其中:f為時域頻率、fm為梅爾濾波器中心頻率,
③對得到的梅爾能量譜進行非線性變換:然后對梅爾能量譜進行分割,得到若干個梅爾能量譜片段,即梅爾能量譜特征。
所述的混合構建是指:從梅爾能量譜特征中隨機選出兩個樣本,將兩個樣本按比率混合構建虛擬訓練樣本,以兩個樣本的混合比率為訓練目標,通過利用特征的線性插值和相關目標的線性插值擴展訓練分布增加訓練樣本的多樣性,對模型有正則化的作用,提高了模型的魯棒性。
所述的混合具體為:其中:xi和xj是隨機選擇的樣本,yi和yj是對應的one-hot類型訓練標簽,和是所構建的虛擬訓練樣本和對應的訓練標簽。
所述的卷積神經網絡包括:八個卷積層和兩個全連接層,其中:每兩個卷積層后通過設置一最大池化層進行降維;該卷積神經網絡采用混合構建得到的樣本庫訓練。
本發明涉及一種實現上述方法的系統,包括:特征提取模塊、混合構建模塊以及網絡訓練模塊,其中:特征提取模塊從原始音頻中提取得到梅爾能量譜片段并輸出至混合構建模塊,混合構建模塊對梅爾能量譜片段及其one-hot標簽混合生成訓練樣本并輸出至網絡訓練模塊,網絡訓練模塊使用混合樣本進行訓練后再次接收待測音頻并輸出對應的類別預測概率分布。
技術效果
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810862022.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種小規模語料DNN-HMM聲學模型
- 下一篇:語音標注方法、裝置及設備





