[發明專利]基于全卷積網絡的聲音事件檢測方法有效
| 申請號: | 202010824598.1 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN111986699B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 趙光輝;張雨萌;王迎斌;石光明 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/18;G10L25/24;G10L25/30;G06F18/24;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 王品華 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 網絡 聲音 事件 檢測 方法 | ||
1.一種基于全卷積神經網絡的聲音事件檢測方法,其特征在于,包括如下:
(1)對待檢測音頻流進行數據預處理,即從音頻流中提取若干梅爾倒譜特征,每個梅爾倒譜特征表現為一張時頻特征圖,這些時頻特征圖組成數據集;
(2)對預處理后得到的數據集做四次交叉驗證,得到四組數據子集,每組數據子集包括75%的訓練集和25%的驗證集;
(3)設計一個自上而下由頻率卷積網絡、時間卷積網絡和解碼卷積網絡組成的全卷積多音頻事件檢測網絡:
(4)對(2)得到的四組數據子集分別進行標準化處理,并將標準化處理后的數據子集與其對應的標簽作為輸入樣本,一起輸入到(3)設計的全卷積多音頻事件檢測網絡中,并利用標準化處理后的訓練集和驗證集對其進行訓練,得到訓練好的全卷積多音頻事件檢測網絡;
(5)將待檢測音頻流經過預處理后得到的時頻特征圖輸入到訓練好的全卷積多音頻事件檢測網絡中,得到每類音頻事件存在的概率值;
(6)設定檢測閾值Q,將(5)得到的概率值與檢測閾值Q進行比較:若概率值大于Q,則認為該事件存在;若概率值小于等于Q,則認為該事件不存在,得到最終音頻事件的檢測結果。
2.根據權利要求1所述的方法,其特征在于,(1)中對音頻流進行梅爾倒譜特征提取,實現如下:
(1a)對原始音頻流信號做分幀操作,每一幀長度為40ms,幀與幀之間的時間重疊率為50%;
(1b)對每一幀音頻先做傅里葉變換得到頻譜圖,再將每256幀頻譜圖沿時間維堆疊起來,得到一張聲譜圖;對所有音頻幀進行此操作后,得到若干聲譜圖;
(1c)將每張聲譜圖通過濾波器數量為40的梅爾標度濾波器組,變換為頻率維長度為40、時間維長度為256的梅爾頻譜特征;
(1d)在梅爾頻譜特征上做倒譜分析,得到信號的梅爾倒譜特征,該梅爾倒譜特征表現為大小為40×256的時頻特征圖。
3.根據權利要求1所述的方法,其特征在于,(3)中構成全卷積多音頻事件檢測網絡的頻率卷積網絡、時間卷積網絡和解碼卷積網絡,其結構分別如下:
所述頻率卷積網絡,由自上而下連接的三個頻率卷積子網絡組成,每個頻率卷積子網絡自上而下由二維卷積層、批量標準化層和非重疊最大池化層連接組成;
所述時間卷積網絡,由自上而下連接的六個時間卷積子網絡組成,每個時間卷積子網絡自上而下由一維空洞卷積層和批量標準化層連接組成;
所述解碼卷積網絡,由自上而下連接的上采樣層和一維卷積層組成。
4.根據權利要求3所述的方法,其特征在于,所述頻率卷積網絡的參數如下:
所述二維卷積層,使用的卷積核大小為3,步長為1,卷積核個數為64,激活函數為ReLU;
所述非重疊最大池化層,池化操作只在頻域進行,其中第一個頻率卷積子網絡中的池化層窗口大小為5,第二個和第三個頻率卷積子網絡中的池化層窗口大小為2。
5.根據權利要求3所述的方法,其特征在于,所述時間卷積網絡中的一維空洞卷積層,使用的空洞系數為2n-1,n為空洞卷積層的層數,卷積核大小為3,步長為1,卷積核個數為32,激活函數為ReLU,dropout為0.2,不使用零填充。
6.根據權利要求3所述的方法,其特征在于,所述解碼卷積網絡的參數如下:
所述上采樣層,采用雙線性插值法進行上采樣,上采樣后輸出特征時間維長度為256;
所述一維卷積層,使用的卷積核大小為3,步長為1,卷積核個數與音頻事件類別數相等,為6個,激活函數為sigmiod。
7.根據權利要求1所述的方法,其特征在于,(4)中利用標準化后的訓練集和驗證集訓練全卷積多音頻事件檢測網絡,實現如下:
(4a)將標準化后的訓練集和驗證集輸入到(3)設計的全卷積多音頻事件檢測網絡中,得到每類音頻事件的概率值該代表第m類音頻事件在第t幀中存在的可能性;
(4b)損失函數選擇二分類交叉熵損失函數,公式如下:
其中t為當前時間幀數,T為總時間幀數,m為音頻事件類別,是數據集的真實標簽;
(4c)根據損失函數計算全卷積多音頻事件檢測網絡中卷積核參數的梯度值,根據得到的梯度值更新卷積核參數,完成一次訓練;
(4d)設定訓練次數N=1000,如果當前訓練次數達到1000次,或者損失函數在訓練中連續100次不變小,則訓練停止,否則返回(4a)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010824598.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于神經網絡的雷達干擾抑制方法
- 下一篇:車身后圍總成





