[發明專利]基于三分支特征融合神經網絡的聲音事件檢測方法在審
| 申請號: | 202210490937.6 | 申請日: | 2022-05-07 |
| 公開(公告)號: | CN114881213A | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 謝宗霞;周雨馨 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62;G10L25/30;G10L25/54 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李麗萍 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分支 特征 融合 神經網絡 聲音 事件 檢測 方法 | ||
本發明公開了一種基于三分支特征融合神經網絡的聲音事件檢測方法,包括:將包含聲音信號的數據集進行特征提取,得到log?mel頻譜圖的數據集,并將其分為訓練集、測試集和驗證集;建立三分支特征融合網絡模型,所述的三分支特征融合網絡模型包括三分支采樣、特征提取、三分支的特征融合和損失融合:將測試集和驗證集作為訓練后的模型的輸入,該模型的輸出即為該數據集的聲音事件檢測的結果,包括該音頻所包含的聲音事件類別和發生該事件的起始和終止時間。本發明通過三分支融合的方式獲取到尾部類和難區分類別的判別性特征,并在一定程度上均衡了分類器的類別權重,提高了聲音事件檢測的效果。
技術領域
本發明屬于神經網絡模型設計及應用,特別涉及三分支特征融合神經網絡模型的應用。
背景技術
近些年來,隨著網絡技術的發展,音頻數據大量的出現,人們發現聲音事件檢測技術能給人類的生活帶來很大的幫助。聲音事件是指音頻中所包含有一些特定的有用的信息。例如,汽車的鳴笛包含著汽車正在靠近的信息,警報器的聲音包含著周圍可能有危險事件的信息,風聲和雨聲中包含著天氣環境的信息,這些信息的識別對人類生活十分有用。
在目前的研究中,研究者普遍把聲音事件檢測任務分為聲音事件分類和聲音事件定位兩個子任務,其中聲音事件定位一般是基于幀級別的聲音事件分類實現的。因此聲音事件分類的效果好壞成為聲音事件檢測的效果好壞的重要決定因素,所以聲音事件檢測中的分類任務有著重要的研究價值。聲音事件檢測的領域的研究相對與發展較為完善圖像識別領域的研究還存在著很多挑戰。首先聲音事件檢測進行研究的是聲音信號,其形式多種多樣,隨機性也非常的強。其次在現實生活中一個音頻中還會出現多個聲音事件,這樣聲音事件檢測所面臨的情況就變的非常的復雜,識別難度也就會因此大幅度的增加。又因為早期聲音事件檢測方面并沒有大型完善并且可靠的數據集,使得聲音事件檢測的發展收到了很大的限制。
隨著AudioSet和其在自動駕駛、智能家居和智能監控等領域的聲音事件檢測子數據集的出現,人們逐漸發現現實生活中聲音的數據集存在著數據不均衡,數據類別間相似程度大,多標簽等現象。但目前聲音事件檢測的研究在分類方面都忽視了這些由于數據集的數據分布和數據特點而造成的難分類現象。而這些想象會提升模型的識別難度,產生誤導性結果,從而使聲音事件檢測中分類任務的準確性降低。如何改進模型,迎合數據集中數據分布特點,提高聲音事件檢測中分類任務的準確性,是目前現有聲音事件檢測技術所存在的不足。
發明內容
為了解決上述技術問題,本發明提出的一種基于三分支特征融合網絡的聲音事件檢測方法,通過三分支網絡同時解決長尾問題和類別間難區分的問題。其中設計的三分支特征融合網絡模型主要包括三分支采樣、特征提取、三分支的特征融合和損失融合。通過對數據集進行均勻采樣、逆采樣和本文提出的基于難例挖掘和多標簽中的成對學習的思想設計的難區分類別對矩陣采樣,采樣后的訓練樣本作為模型訓練的三個分支,這樣三個分支將側重于不同的樣本。特征提取中采用CNN-Transformer模型對音頻的特征進行提取,由于三個分支輸入不同所以三個分支的參數不同,提取到的特征也不同。在學習過程中通過隨著學習過程逐漸減小的超參數λ將三個分支的特征進行融合,從而使模型在學習過程中的表征學習的階段更加關注均升采樣分支,在后面的分類學習階段逐漸關注后面兩個分支。采用這種分支融合方式在模型的特征學習方面先關注通用特征再關注后面兩個分支與類別相關的特征,從而提取到的特征對后面兩個分支更具判別性。同時在分類學習的階段通過隨著學習過程逐漸減小的超參數λ將三個分支的損失函數進行融合,這種融合方式也可以均衡模型的分類器權重,使模型在分類時不再傾向于數量多的類。從而同時解決了長尾問題和類別間難區分問題。
本發明提出的一種基于三分支特征融合神經網絡的聲音事件檢測方法,步驟如下:
步驟1、數據預處理:將包含聲音信號的數據集進行特征提取,得到log-mel頻譜圖的數據集,并將其分為訓練集、測試集和驗證集,并按照一定比例劃分,劃分的比例可采取深度學習通用的8∶1∶1,也可根據需要自行劃分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210490937.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種ICU用輔助抬運設備
- 下一篇:晶圓的調度方法、裝置及半導體工藝設備





