[發明專利]音頻監控中基于深度隨機森林的聲音事件分類方法有效
| 申請號: | 201911112306.5 | 申請日: | 2019-11-14 |
| 公開(公告)號: | CN110808070B | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 余春艷;劉煌;李明達 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/21;G06K9/62 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 陳明鑫;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 監控 基于 深度 隨機 森林 聲音 事件 分類 方法 | ||
1.一種音頻監控中基于深度隨機森林的聲音事件分類方法,其特征在于,包括以下步驟:
步驟S1:從監控的音頻文件中提取梅爾能量特征,并將其處理成特征序列;
步驟S2:對每一類聲音事件訓練一個深度隨機森林分類器,通過組合多個二分類模型,形成最終的深度隨機森林聲音事件分類模型;
步驟S3:使用最終的深度隨機森林聲音事件分類模型對聲音事件進行預測,得到聲音事件的預測概率;
步驟S4:根據得到的預測概率,進行事件分類后處理,得到聲音事件分類結果;
所述步驟S1具體為:
步驟S11:將音頻監控文件使用時長1.2秒,每隔0.02秒的滑動窗口進行切分,得到N個音頻片;
步驟S12:將切分得到的每個音頻片段內,按照幀長40ms,幀移20ms進行劃分,得到61個音頻幀;
步驟S13:對每個音頻幀計算梅爾能量特征,得到每幀123維特征;
步驟S14:將61幀合成一個數據,最終得到N*61*123的特征,將得到的特征數據處理成N*7503維序列格式,構成特征序列;
所述訓練深度隨機森林分類器,具體為:
步驟S21:對于級聯森林中第一層級聯層,輸入7503維原始特征;通過對森林中所有樹求平均,該森林將輸出一個2維類預測概率;
步驟S22:若每層級聯層包含12個森林,則在第一層級聯層的末端將得到7527維的特征向量,由12個2維類向量級聯7503維原始特征向量得到;
步驟S23:每個級聯層接收其前一級處理的特征信息,并且級聯原始特征后作為下一層的輸入特征,下一級聯層使用該輸入特征進行訓練,級聯層層數將持續進行縱向深度拓展;
步驟S24:每個個級聯層訓練完成后,將使用驗證集判斷性能是否得到提升,沒有提升則級聯層層數將停止縱向深度拓展;
所述步驟S3具體為:
步驟S31:通過計算不同類別的訓練樣例在葉子結點上所占的百分比,每一顆樹都會產生一個預測概率;
步驟S32:將同一個森林的所有樹的預測概率做平均,輸出類預測概率;
所述步驟S4具體為:
步驟S41:將預測概率閾值設置為0.5,判斷每1.2秒時長的音頻片段數據里某一聲音事件類出現次數是否大于等于10,若是,則分類出該聲音事件的類別;
步驟S42:對事件進行平滑處理,合并相鄰連續事件,同時設置允許存在的最小事件長度為0.05秒,如果事件長度小于0.05秒,則刪除該事件,最終得到分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911112306.5/1.html,轉載請聲明來源鉆瓜專利網。





