[發(fā)明專利]音頻監(jiān)控中基于深度隨機(jī)森林的聲音事件分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911112306.5 | 申請(qǐng)日: | 2019-11-14 |
| 公開(公告)號(hào): | CN110808070B | 公開(公告)日: | 2022-05-06 |
| 發(fā)明(設(shè)計(jì))人: | 余春艷;劉煌;李明達(dá) | 申請(qǐng)(專利權(quán))人: | 福州大學(xué) |
| 主分類號(hào): | G10L25/51 | 分類號(hào): | G10L25/51;G10L25/21;G06K9/62 |
| 代理公司: | 福州元?jiǎng)?chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 陳明鑫;蔡學(xué)俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 監(jiān)控 基于 深度 隨機(jī) 森林 聲音 事件 分類 方法 | ||
本發(fā)明涉及一種音頻監(jiān)控中基于深度隨機(jī)森林的聲音事件分類方法,包括以下步驟:步驟S1:從監(jiān)控的音頻文件中提取梅爾能量特征,并將其處理成特征序列;步驟S2:對(duì)每一類聲音事件訓(xùn)練一個(gè)深度隨機(jī)森林分類器,通過組合多個(gè)二分類模型,形成最終的深度隨機(jī)森林聲音事件分類模型;步驟S3:使用最終的深度隨機(jī)森林聲音事件分類模型對(duì)聲音事件進(jìn)行預(yù)測(cè),得到聲音事件的預(yù)測(cè)概率;步驟S4:根據(jù)得到的預(yù)測(cè)概率,進(jìn)行事件分類后處理,得到聲音事件分類結(jié)果。本發(fā)明基于隨機(jī)森林的音頻事件淺層檢測(cè)方法和深度結(jié)構(gòu)相結(jié)合,能夠有效的對(duì)重疊聲音事件進(jìn)行檢測(cè)并快速分類。
技術(shù)領(lǐng)域
本發(fā)明涉及監(jiān)控系統(tǒng)中音頻信號(hào)處理方法,具體涉及一種音頻監(jiān)控中基于深度隨機(jī)森林的聲音事件分類方法。
背景技術(shù)
隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們可獲取的音頻數(shù)據(jù)呈爆炸式增長(zhǎng)。如何從龐大、雜亂的音頻數(shù)據(jù)中找出感興趣的音頻信息,是目前許多研究者關(guān)注的焦點(diǎn)。音頻事件分類與檢測(cè)是音頻信息檢索的重要基礎(chǔ),可以幫助解決感興趣音頻事件檢出、分類等問題。
安全監(jiān)控系統(tǒng)是維護(hù)社會(huì)秩序、打擊犯罪的強(qiáng)有力手段。傳統(tǒng)的安全監(jiān)控主要是基于視頻圖像。雖然城市中攝像頭越來越多,但是安全保障還有待進(jìn)一步提升。傳統(tǒng)視頻監(jiān)控不能對(duì)某些異常情況及時(shí)地發(fā)出警報(bào),而且需要一定的外部條件如光照、目標(biāo)物體、清晰度等。基于音頻事件檢測(cè)的音頻監(jiān)控能夠?qū)崟r(shí)檢測(cè)現(xiàn)場(chǎng)的聲音,對(duì)一些異常音頻事件如尖叫聲、槍聲進(jìn)行監(jiān)測(cè),彌補(bǔ)視頻監(jiān)控的不足。因此,音頻監(jiān)控可以輔助視頻監(jiān)控,結(jié)合兩者的優(yōu)勢(shì)組成多模安全監(jiān)控系統(tǒng),音頻事件檢測(cè)是音頻監(jiān)控的核心模塊。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種音頻監(jiān)控中基于深度隨機(jī)森林的聲音事件分類方法,能夠有效的對(duì)重疊聲音事件進(jìn)行檢測(cè)并快速分類。
為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種音頻監(jiān)控中基于深度隨機(jī)森林的聲音事件分類方法,包括以下步驟:
步驟S1:從監(jiān)控的音頻文件中提取梅爾能量特征,并將其處理成特征序列;
步驟S2:對(duì)每一類聲音事件訓(xùn)練一個(gè)深度隨機(jī)森林分類器,通過組合多個(gè)二分類模型,形成最終的深度隨機(jī)森林聲音事件分類模型;;
步驟S3:使用最終的深度隨機(jī)森林聲音事件分類模型對(duì)聲音事件進(jìn)行預(yù)測(cè),得到聲音事件的預(yù)測(cè)概率;
步驟S4:根據(jù)得到的預(yù)測(cè)概率,進(jìn)行事件分類后處理,得到聲音事件分類結(jié)果。
進(jìn)一步的,所述步驟S1具體為:
步驟S11:將音頻監(jiān)控文件使用時(shí)長(zhǎng)1.2秒,每隔0.02秒的滑動(dòng)窗口進(jìn)行切分,得到N個(gè)音頻片;
步驟S12:將切分得到的每個(gè)音頻片段內(nèi),按照幀長(zhǎng)40ms,幀移20ms進(jìn)行劃分,得到61個(gè)音頻幀;
步驟S13:對(duì)每個(gè)音頻幀計(jì)算梅爾能量特征,得到每幀123維特征;
步驟S14:將61幀合成一個(gè)數(shù)據(jù),最終得到N*61*123的特征,將得到的特征數(shù)據(jù)處理成N*7503維序列格式,構(gòu)成特征序列。
進(jìn)一步的,所述訓(xùn)練深度隨機(jī)森林分類器,具體為:
步驟S21:對(duì)于級(jí)聯(lián)森林中第一層級(jí)聯(lián)層,輸入7503維原始特征;通過對(duì)森林中所有樹求平均,該森林將輸出一個(gè)2維類預(yù)測(cè)概率;
步驟S22:若每層級(jí)聯(lián)層包含12個(gè)森林,則在第一層級(jí)聯(lián)層的末端將得到7527維的特征向量,由12個(gè)2維類向量級(jí)聯(lián)7503維原始特征向量得到;
步驟S23:每個(gè)級(jí)聯(lián)層接收其前一級(jí)處理的特征信息,并且級(jí)聯(lián)原始特征后作為下一層的輸入特征,下一級(jí)聯(lián)層使用該輸入特征進(jìn)行訓(xùn)練,級(jí)聯(lián)層層數(shù)將持續(xù)進(jìn)行縱向深度拓展。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911112306.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:圖像處理方法和設(shè)備
- 下一篇:一種大底沖切機(jī)
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 一種范圍廣、力度大的校內(nèi)監(jiān)控系統(tǒng)
- 一種監(jiān)控的方法及系統(tǒng)
- 設(shè)備的監(jiān)控方法、裝置、系統(tǒng)和空調(diào)
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 設(shè)備監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 風(fēng)險(xiǎn)雷達(dá)預(yù)警的監(jiān)控方法及系統(tǒng)
- 區(qū)塊鏈網(wǎng)絡(luò)監(jiān)控系統(tǒng)、裝置及方法
- 基于機(jī)器視覺的車站客流安全智能監(jiān)控系統(tǒng)





