[發(fā)明專利]基于雙分支判別特征神經(jīng)網(wǎng)絡(luò)的聲音事件檢測方法在審
| 申請?zhí)枺?/td> | 202210490907.5 | 申請日: | 2022-05-07 |
| 公開(公告)號: | CN114881212A | 公開(公告)日: | 2022-08-09 |
| 發(fā)明(設(shè)計)人: | 謝宗霞;周雨馨 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62;G10L25/30;G10L25/54 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 李麗萍 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 分支 判別 特征 神經(jīng)網(wǎng)絡(luò) 聲音 事件 檢測 方法 | ||
1.一種基于雙分支判別特征神經(jīng)網(wǎng)絡(luò)的聲音事件檢測方法,其特征在于,包括以下步驟:
步驟1、數(shù)據(jù)預(yù)處理:將包含聲音信號的數(shù)據(jù)集進(jìn)行特征提取,得到log-mel頻譜圖的數(shù)據(jù)集,并按照一定比例將其分為訓(xùn)練集、測試集和驗證集;
步驟2、建立雙分支判別特征網(wǎng)絡(luò)模型,所述的雙分支判別特征網(wǎng)絡(luò)模型包括雙分支采樣、特征提取、雙分支的特征融合和損失融合:步驟如下:
2-1)分別對訓(xùn)練集進(jìn)行均勻采樣和逆采樣從而得到兩個分支的訓(xùn)練樣本;
2-2)采用基于通道注意力機制融合語義特征和空間特征的CNN-Transformer模型對步驟2-1)獲得的兩個分支的訓(xùn)練樣本的聲音事件特征進(jìn)行提取,得到兩個分支的特征;
2-3)采用隨著學(xué)習(xí)過程逐漸減小的超參數(shù)將步驟2-2)得到的兩個分支的特征進(jìn)行融合,根據(jù)融合后的特征分別計算兩個分支的損失函數(shù),根據(jù)損失函數(shù)反向傳播修改模型的參數(shù),完成模型的訓(xùn)練;
步驟3、將測試集和驗證集作為訓(xùn)練后的模型的輸入,該模型的輸出即為該數(shù)據(jù)集的聲音事件檢測的結(jié)果,包括該音頻所包含的聲音事件類別和發(fā)生該事件的起始和終止時間。
2.根據(jù)權(quán)利要求1所述的聲音事件檢測方法,其特征在于,所述步驟1中,提取log-mel頻譜圖時將所有音頻剪輯都轉(zhuǎn)換為單聲道,并重新采樣為32kHz;之后使用具有1024個樣本的漢寧窗口和320個樣本的的短時傅里葉變換來提取譜圖,使得該譜圖在1秒鐘內(nèi)產(chǎn)生100幀。
3.根據(jù)權(quán)利要求2所述的聲音事件檢測方法,其特征在于,所述步驟1中,將所述的log-mel頻譜圖的數(shù)據(jù)集分為訓(xùn)練集、測試集和驗證集的劃分比例為8:1:1。
4.根據(jù)權(quán)利要求1所述的聲音事件檢測方法,其特征在于:所述步驟2-1)中,設(shè)定訓(xùn)練集D={(x1,y1)…(xn,yn)},其中n是訓(xùn)練集中樣本的數(shù)量;(xk,yk),且k∈(1,…n),表示樣本的輸入和該樣本所對應(yīng)的標(biāo)簽;
所述的均勻采樣中,訓(xùn)練集中的每個樣本在一個訓(xùn)練時段內(nèi)以相同的概率采樣一次,該訓(xùn)練集中樣本采樣的概率都為將均勻采樣的樣本輸入和該樣本所對應(yīng)的標(biāo)簽記為(xu,yu);
所述的逆采樣中,基于類別數(shù)量的倒數(shù)對訓(xùn)練集D中的樣本進(jìn)行采樣,每一個類別的采樣概率如下所示:
式(1)中,pi代表第i個類取樣的概率,ni代表第i個類的樣本數(shù)量,c代表訓(xùn)練集類別的數(shù)量;將逆采樣的樣本輸入和該樣本所對應(yīng)的標(biāo)簽記為(xr,yr);
兩個分支的樣本輸入和樣本所對應(yīng)的標(biāo)簽包括(xu,yu)和(xr,yr)。
5.根據(jù)權(quán)利要求1所述的聲音事件檢測方法,其特征在于:所述步驟2-2)中,采用CNN-Transformer模型,先通過CNN網(wǎng)絡(luò)提取log-mel頻譜圖的幀級特征,然后使用Transformer進(jìn)行幀間關(guān)系建模,提取log-mel頻譜圖的時域特征;基于步驟2-1)獲得的兩個分支的樣本輸入和樣本所對應(yīng)的標(biāo)簽(xu,yu)和(xr,yr)所提取到的兩個分支特征分別為fu和fr。
6.根據(jù)權(quán)利要求5所述的聲音事件檢測方法,其特征在于:所述的CNN網(wǎng)絡(luò)結(jié)構(gòu)分為四個層,隨著層數(shù)的增加提取的特征逐漸加深;第一層提取的是相對淺層的特征,第四層提的是相對深層的特征;所述的CNN網(wǎng)絡(luò)是一個從下向上的結(jié)構(gòu),即由第四層所提取的特征來指導(dǎo)第三層的特征提取,由第三層所提取的特征指導(dǎo)第二層的特征提取,以此類推;
依據(jù)通道注意力機制指導(dǎo)判別特征的篩選,從而達(dá)到深層特征指導(dǎo)淺層特征選擇。
7.根據(jù)權(quán)利要求1所述的聲音事件檢測方法,其特征在于,所述步驟2-3)中,基于步驟2-2)所得到的兩個分支的特征fu和fr;使用超參數(shù)λ對兩個分支的特征進(jìn)行融合,如下所示:
z=λfu+(1-λ)fr (2)
式(2)中,fu和fr分別代表兩個分支所提取到的特征,λ如式(3)所示:
式(3)中,T代表當(dāng)前所處的epoch,Tmax代表訓(xùn)練模型所設(shè)置的最大epoch;
使用超參數(shù)λ對兩個分支的損失函數(shù)進(jìn)行融合,如下所示:
L=λLu(p,yu)+(1-λ)Lr(p,yr) (4)
式(4)中,λ的值由式(3)所決定,p為式(2)中z通過sigmoid激活所得到的結(jié)果,Lu和Lr分別為兩個分支的損失函數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210490907.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種金屬粉回收裝置
- 下一篇:一種ICU用輔助抬運設(shè)備





