[發明專利]基于卷積神經網絡的環境聲音識別方法及系統有效
| 申請號: | 201810862022.7 | 申請日: | 2018-08-01 |
| 公開(公告)號: | CN109065030B | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 張智超;徐樹公;曹姍;張舜卿 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/02;G10L15/06;G06N3/04 |
| 代理公司: | 上海交達專利事務所 31201 | 代理人: | 王毓理;王錫麟 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 環境 聲音 識別 方法 系統 | ||
1.一種基于卷積神經網絡的環境聲音識別方法,其特征在于,將從原始音頻中提取得到的梅爾能量譜特征進行混合構建得到樣本庫,用于對卷積神經網絡進行訓練,最終以訓練后的卷積神經網絡進行環境聲音的識別;
所述的混合構建是指:從梅爾能量譜特征中隨機選出兩個樣本,將兩個樣本按比率混合構建虛擬訓練樣本,以兩個樣本的混合比率為訓練目標,通過利用特征的線性插值和相關目標的線性插值擴展訓練分布增加訓練樣本的多樣性;
所述的提取,包括以下步驟:
①對原始音頻進行分幀后對每一幀進行FFT變換得到聲音的幅度譜其中:s(n)為聲音信號,w為窗函數,1≤k≤N-1,經平方處理得到聲音的能量譜P(k)=|S(k)|2;
②利用梅爾濾波器組將聲音的能量譜轉換到梅爾頻率表示,具體為:其中:f為時域頻率、fm為梅爾濾波器中心頻率,
③對得到的梅爾能量譜進行非線性變換:然后對梅爾能量譜進行分割,得到若干個梅爾能量譜片段,即梅爾能量譜特征。
2.根據權利要求1所述的方法,其特征是,所述的梅爾能量譜,進一步使用基于能量的方法移除微弱音頻,即通過預設閾值,移除連續兩幀梅爾能量譜能量均值小于預設閾值的音頻幀。
3.根據權利要求1所述的方法,其特征是,所述的原始音頻,經時間延伸處理和音調轉換處理以擴充訓練樣本以增強模型的泛化性能,其中:
所述的時間延伸處理是指:加快或放慢聲音而不改變聲音的音調并得到新的樣本;
所述的音調轉換處理是指:升高或降低音調而不改變聲音的時長并得到新的樣本。
4.根據權利要求1所述的方法,其特征是,所述的卷積神經網絡首先對梅爾能量譜特征進行基本特征提取,然后分別對頻域和時域進行特征提取,最后提取時頻的聯合特征。
5.根據權利要求1或4所述的方法,其特征是,所述的卷積神經網絡包括:八個卷積層和兩個全連接層,其中:每兩個卷積層后通過設置一最大池化層進行降維;該卷積神經網絡采用混合構建得到的樣本庫訓練。
6.根據權利要求5所述的方法,其特征是,所述的卷積神經網絡包括:
第一卷積層Conv1卷積核尺寸為3×7,步長為1×1,卷積核數量為32;
第二卷積層Conv2卷積核尺寸為3×5,步長為1×1,卷積核數量為32;前兩卷積層使用尺寸較大的卷積核,進行基本的特征提取;
第一最大池化層Pool1卷積核尺寸為4×3,步長為4×3,用于降低特征維度;
第三卷積層Conv3和第四卷積層Conv4卷積核尺寸為3×1,步長為1×1,卷積核數量為64,用于提取高層頻域特征;
第二最大池化層Pool2卷積核尺寸為4×1,步長為4×1,降低頻域維度;
第五卷積層Conv5和第六卷積核Conv6卷積核尺寸為1×3,步長為1×1,卷積核數量為128,用于提取高層時域特征;
第三最大池化層Pool3卷積核尺寸為1×3,步長為1×3,降低時域維度;
第七卷積層Conv7和第八個卷積層Conv8卷積核尺寸為3×3,步長為1×1,卷積核數量為256,用于提取時頻特征;
第四最大池化層Pool4卷積核尺寸為2×2,步長為2×2;
第一全連接層FC1有512個節點,第二全連接層FC2,即輸出層節點個數需根據類別數量而確定。
7.根據權利要求1所述的方法,其特征是,所述的混合具體為:其中:xi和xj是隨機選擇的樣本,yi和yj是對應的one-hot類型訓練標簽,和是所構建的虛擬訓練樣本和對應的訓練標簽。
8.一種實現權利要求1~7中任一所述方法的系統,其特征在于,包括:特征提取模塊、混合構建模塊以及網絡訓練模塊,其中:特征提取模塊從原始音頻中提取得到梅爾能量譜片段并輸出至混合構建模塊,混合構建模塊對梅爾能量譜片段及其one-hot標簽混合生成訓練樣本并輸出至網絡訓練模塊,網絡訓練模塊使用混合樣本進行訓練后再次接收待測音頻并輸出對應的類別預測概率分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810862022.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種小規模語料DNN-HMM聲學模型
- 下一篇:語音標注方法、裝置及設備





