[發(fā)明專利]一種基于卷積神經(jīng)網(wǎng)絡(luò)和多核學(xué)習(xí)SVM的關(guān)鍵音頻檢測方法有效
| 申請?zhí)枺?/td> | 201910319987.6 | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110047506B | 公開(公告)日: | 2021-08-20 |
| 發(fā)明(設(shè)計)人: | 朱宸都;應(yīng)娜;李怡菲;蔡哲棟;劉兆森;楊鵬 | 申請(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/03;G10L25/48;G06K9/62;G06N3/04 |
| 代理公司: | 浙江千克知識產(chǎn)權(quán)代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 卷積 神經(jīng)網(wǎng)絡(luò) 多核 學(xué)習(xí) svm 關(guān)鍵 音頻 檢測 方法 | ||
本發(fā)明提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和多核學(xué)習(xí)SVM的關(guān)鍵音頻檢測方法,包括步驟:S1:處理音頻數(shù)據(jù)集,得到音頻原始波形序列數(shù)據(jù)集和音頻聲譜圖數(shù)據(jù)集;S2:建立提取音頻原始波形序列特征的一維卷積神經(jīng)網(wǎng)絡(luò)和提取音頻聲譜圖特征的二維卷積神經(jīng)網(wǎng)絡(luò);S3:使用音頻的原始波形序列數(shù)據(jù)集和聲譜圖數(shù)據(jù)集分別訓(xùn)練一維和二維卷積神經(jīng)網(wǎng)絡(luò),得到對應(yīng)的兩個特征提取的網(wǎng)絡(luò)模型;S4:輸入音頻的原始波形序列和聲譜圖分別至對應(yīng)的兩個網(wǎng)絡(luò)模型,提取對應(yīng)的特征;S5:輸入兩類特征至多核支持向量機,構(gòu)建基于特征融合模型的核函數(shù),進(jìn)行音頻分類。本發(fā)明所述檢測方法將卷積神經(jīng)網(wǎng)絡(luò)從音頻語譜圖和音頻原始波形中提取的特征進(jìn)行融合,提高了檢測識別準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明屬于音頻監(jiān)控技術(shù)領(lǐng)域,主要涉及安防領(lǐng)域,具體來說,即安防領(lǐng)域下音頻監(jiān)控中的關(guān)鍵音頻檢測方法。
背景技術(shù)
隨著多媒體技術(shù)發(fā)展,越來越多公共場所安裝了音頻監(jiān)控以保障公共安全。聲音信息中包含了不亞于圖像信息的信息量,通過監(jiān)控識別公共場合聲音信息,可以迅速發(fā)現(xiàn)所關(guān)注的事件,從而做出應(yīng)對。聲音信息具有良好的實時性,對視頻監(jiān)控具有良好的輔助作用。
卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是多層感知機模型的簡單擴展,然而對于他們系統(tǒng)架構(gòu)的更改帶來更多的不同,使得他們更加適合用于圖片分類,典型的卷積神經(jīng)網(wǎng)絡(luò)包含眾多的網(wǎng)絡(luò)層堆疊在一起:輸入層、一群卷基層和池化層,有限數(shù)量的全連接層和輸出層。
多核學(xué)習(xí)是一種特征融合方法,可以處理異質(zhì)或不規(guī)則數(shù)據(jù),巨大的樣本量,樣本的不均勻分布以及其他問題,在多核學(xué)習(xí)中,多種特征被組織成組,并且每個組擁有自己的核函數(shù)。這些不同的核函數(shù)被組合成一個新的核函數(shù),該核函數(shù)用于分類器中。
發(fā)明內(nèi)容
本發(fā)明提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和多核學(xué)習(xí)SVM的音頻事件檢測方法,利用多核學(xué)習(xí)方法將卷積神經(jīng)網(wǎng)絡(luò)從音頻語譜圖和音頻原始波形中提取的特征進(jìn)行融合的方法,以達(dá)到兩種特征互補來提高音頻事件檢測識別準(zhǔn)確率的目的。
為達(dá)到上述技術(shù)目的,本發(fā)明采取如下技術(shù)方案:
一種基于卷積神經(jīng)網(wǎng)絡(luò)和多核學(xué)習(xí)SVM的關(guān)鍵音頻檢測方法,包括步驟:
S1:處理音頻數(shù)據(jù)集,得到音頻原始波形序列數(shù)據(jù)集和音頻聲譜圖數(shù)據(jù)集;
S2:分別建立提取音頻原始波形序列特征的一維卷積神經(jīng)網(wǎng)絡(luò)和提取音頻聲譜圖特征的二維卷積神經(jīng)網(wǎng)絡(luò);
S3:使用音頻的原始波形序列數(shù)據(jù)集和聲譜圖數(shù)據(jù)集分別訓(xùn)練一維卷積神經(jīng)網(wǎng)絡(luò)和二維卷積神經(jīng)網(wǎng)絡(luò),得到對應(yīng)的兩個特征提取的網(wǎng)絡(luò)模型;
S4:輸入音頻的原始波形序列和聲譜圖分別至對應(yīng)的兩個網(wǎng)絡(luò)模型,提取得到對應(yīng)的特征;
S5:輸入兩類特征至多核支持向量機,構(gòu)建基于特征融合模型的核函數(shù),進(jìn)行音頻分類。
進(jìn)一步地,所述步驟S3具體實施步驟如下:
S3.1:音頻原始波形序列輸入至一維卷積神經(jīng)網(wǎng)絡(luò)中,輸出該波形對應(yīng)于各個音頻類別的可能性,隨著網(wǎng)絡(luò)輸入端和輸出端的數(shù)據(jù)不斷更新,更新網(wǎng)絡(luò)參數(shù),直到訓(xùn)練結(jié)束;
S3.2:音頻聲譜圖輸入至二維卷積神經(jīng)網(wǎng)絡(luò)中,輸出該聲譜圖對應(yīng)于各個音頻類別的可能性,隨著網(wǎng)絡(luò)輸入端和輸出端的數(shù)據(jù)不斷更新,更新網(wǎng)絡(luò)參數(shù),直到訓(xùn)練結(jié)束。
進(jìn)一步地,所述數(shù)據(jù)集中含有多種類別音頻事件,各個類音頻數(shù)量大約相同,都是安全監(jiān)控中的關(guān)鍵音頻事件;
進(jìn)一步地,所述一維和二維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中均包含卷基層,池化層和BatchNormalization層;
進(jìn)一步地,所述多核支持向量機,采用不同的特征向量來得到不同的核函數(shù),并將其線性加權(quán)獲得新的核函數(shù)。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910319987.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





