[發(fā)明專(zhuān)利]一種基于遷移學(xué)習(xí)的暴恐音頻檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910238365.0 | 申請(qǐng)日: | 2019-03-27 |
| 公開(kāi)(公告)號(hào): | CN111755024B | 公開(kāi)(公告)日: | 2023-02-10 |
| 發(fā)明(設(shè)計(jì))人: | 何小海;胡鑫旭;周欣;熊淑華;王正勇;吳小強(qiáng);滕奇志 | 申請(qǐng)(專(zhuān)利權(quán))人: | 四川大學(xué) |
| 主分類(lèi)號(hào): | G10L25/18 | 分類(lèi)號(hào): | G10L25/18;G10L25/27 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 610065 四川*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 遷移 學(xué)習(xí) 音頻 檢測(cè) 方法 | ||
1.一種基于遷移學(xué)習(xí)的暴恐音頻檢測(cè)方法,其特征在于包括以下步驟:
(1)將TUT音頻數(shù)據(jù)集作為源音頻數(shù)據(jù),提取源音頻數(shù)據(jù)的對(duì)數(shù)梅爾頻譜特征,接著將該特征輸入到預(yù)訓(xùn)練網(wǎng)絡(luò)得到相應(yīng)的預(yù)訓(xùn)練模型,這里的預(yù)訓(xùn)練網(wǎng)絡(luò)指卷積神經(jīng)網(wǎng)絡(luò);
(2)將暴恐音頻數(shù)據(jù)集作為目標(biāo)音頻數(shù)據(jù),提取目標(biāo)音頻數(shù)據(jù)的對(duì)數(shù)梅爾頻譜特征,接著將該特征輸入到步驟(1)的預(yù)訓(xùn)練模型,微調(diào)步驟(1)的網(wǎng)絡(luò)結(jié)構(gòu),繼續(xù)訓(xùn)練預(yù)訓(xùn)練模型得到微調(diào)后的模型;
(3)在步驟(2)的網(wǎng)絡(luò)結(jié)構(gòu)中添加輔助網(wǎng)絡(luò),并將輔助網(wǎng)絡(luò)部分的輸出特征與輸入特征聚合在一起共同輸入分類(lèi)層;
步驟(1)中在提取TUT數(shù)據(jù)集音頻的對(duì)數(shù)梅爾頻譜特征后,將每段音頻輸入預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,其結(jié)構(gòu)采用三層卷積層,輸入層是200×500的特征圖,第一層卷積層使用200×50大小的卷積核,通道數(shù)為100,第二層和第三層卷積層均使用1×1大小的卷積核,通道數(shù)分別為100和15,預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)率為0.01,交叉熵作為損失函數(shù),批大小為64,600次迭代,采用全局平均池化層替代全連接層;
步驟(2)中微調(diào)步驟(1)的預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),具體做法是保留步驟(1)中網(wǎng)絡(luò)結(jié)構(gòu)的前兩層卷積層,第三層采用1×1大小的卷積核,通道數(shù)為2,降低學(xué)習(xí)率,學(xué)習(xí)率為0.001,交叉熵作為損失函數(shù),批大小為64,減少迭代次數(shù),迭代300次,提取暴恐音頻數(shù)據(jù)集中音頻的對(duì)數(shù)梅爾頻譜特征,在步驟(1)中得到的預(yù)訓(xùn)練模型上繼續(xù)訓(xùn)練;
步驟(3)中以步驟(2)模型作為基礎(chǔ)網(wǎng)絡(luò),將基礎(chǔ)網(wǎng)絡(luò)從第二層卷積層與第三層卷積層之間截?cái)嘀螅诘诙泳矸e層和第三層卷積層之間追加了幾個(gè)卷積層,這部分稱(chēng)為輔助結(jié)構(gòu),輔助網(wǎng)絡(luò)部分采用三個(gè)連續(xù)的濾波器大小為1×50、1×1、1×1的卷積層,將這一部分得到的特征圖與輸入特征圖聚合在一起,共同輸入分類(lèi)層:
F2=ω3(σ(ω2σ(ω1F1))) (1)
F3=concatenate(F1,F2) (2)
其中公式(1)中F1是基礎(chǔ)網(wǎng)絡(luò)的輸出,也是輔助網(wǎng)絡(luò)的輸入,F(xiàn)2是輔助網(wǎng)絡(luò)的輸出,σ為激活函數(shù),ωi(i=1,2,3)為輔助結(jié)構(gòu)中三個(gè)卷積層權(quán)重,采用均勻分布初始化權(quán)重,公式(2)表示的意思是采用keras中concatenate函數(shù),實(shí)現(xiàn)了原始CNN網(wǎng)絡(luò)特征圖與輔助網(wǎng)絡(luò)特征圖的數(shù)據(jù)疊加。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于步驟(1)和步驟(2)中提取音頻數(shù)據(jù)的對(duì)數(shù)梅爾頻譜特征,提取過(guò)程包括:預(yù)加重、分幀、加窗、快速傅里葉變換、取絕對(duì)值、梅爾濾波、取對(duì)數(shù),本發(fā)明產(chǎn)生對(duì)數(shù)梅爾頻譜圖的參數(shù)為:音頻信號(hào)的采樣率為44.1kHz,預(yù)加重系數(shù)為0.97,采用漢明窗進(jìn)行分幀,快速傅里葉變換窗口長(zhǎng)度為50ms,相鄰窗之間的距離為20ms,每幀包含2205個(gè)采樣點(diǎn),梅爾濾波器的個(gè)數(shù)為200,最終每個(gè)10秒長(zhǎng)的音頻轉(zhuǎn)化為數(shù)組形式,維度為200行、500列。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910238365.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 遷移方法和裝置
- 移動(dòng)邊緣系統(tǒng)中遷移應(yīng)用方法、相關(guān)設(shè)備及系統(tǒng)
- 虛擬機(jī)的遷移方法及裝置
- 數(shù)據(jù)遷移方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 計(jì)算任務(wù)遷移方法及計(jì)算任務(wù)遷移器
- 文件遷移方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于遷移工具的國(guó)產(chǎn)化應(yīng)用系統(tǒng)遷移方法
- 數(shù)據(jù)遷移方法及裝置
- 文件遷移方法及裝置
- 一種數(shù)據(jù)遷移方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 根據(jù)用戶(hù)學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置





