[發(fā)明專利]基于深度學習的聲音事件檢測與定位方法有效
| 申請?zhí)枺?/td> | 202010184468.6 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN111443328B | 公開(公告)日: | 2023-07-18 |
| 發(fā)明(設計)人: | 齊子禛;黃青華;魯乃達;房偉倫 | 申請(專利權(quán))人: | 上海大學 |
| 主分類號: | G01S5/18 | 分類號: | G01S5/18;G06N3/0464;G06N3/0442;G06N3/048;G06N3/08 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 聲音 事件 檢測 定位 方法 | ||
1.一種基于深度學習的聲音事件檢測與定位方法,其特征在于,具體包括以下步驟:
步驟一,分割數(shù)據(jù)集,即將數(shù)據(jù)集分為訓練集、驗證集、測試集,并按照一定比例劃分;
步驟二,預處理,即將包含聲音信號的數(shù)據(jù)集進行特征提取得到適合于SED訓練的Log-Mel譜圖和計算速度快且有一定抗混響能力的GCC-PHAT;
步驟三,構(gòu)建深度學習模型,構(gòu)建出結(jié)合ResNet框架和RNN相結(jié)合的一種網(wǎng)絡架構(gòu),并且層與層之間復合了池化、正則化、歸一化模塊用于優(yōu)化特征提取提高非線性度;
步驟四:兩步訓練,即先進行SED任務的訓練,得到最佳模型并將訓練結(jié)果作為特征輸入到DOA任務的訓練中;之后再進行DOA任務的訓練,最終得到最佳訓練模型;
在所述步驟三中構(gòu)建深度學習模型時,訓練模型按如下所示次序采用的具體參數(shù)分別為:
1)卷積層1,共計64個卷積核,卷積核大小為3*3,步長設置2,填充模式設置為SAME;激活函數(shù)設置為ReLU,并執(zhí)行局部響應歸一化,且不設置偏執(zhí)單元;
2)ResNet網(wǎng)絡,共計32個卷積層,且每兩層卷積層的輸入和輸出之間建立一條直接關聯(lián)的通道;
3)降維,將2)輸出維度進行降維處理再輸入到4)中;
4)雙向門控循環(huán)單元Bi-GRU,對于SED分支,使用一層Bi-GRU其映射為256維;對于DOA分支使Bi-GRU的疊加層數(shù)設置為2,其他設置和SED分支相同;
5)全連接層,映射為512維,設置偏執(zhí)單元bias,對于SED分支輸出為N維,對于DOA分支輸出為2N維使其分別作用于方位角和俯仰角;
6)對于SED分支,使用sigmoid激活函數(shù);對于DOA分支使用Linear激活函數(shù);
7)上采樣,對最后輸出的多通道數(shù)據(jù)進行上采樣,使用默認方式nearest。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海大學,未經(jīng)上海大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010184468.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





