[發明專利]一種基于序列分類的特定聲音事件檢索與定位的方法有效
| 申請號: | 201911363277.X | 申請日: | 2019-12-25 |
| 公開(公告)號: | CN111161715B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 余春艷;劉煌;吳長軒 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/183;G10L19/04;G10L25/18;G10L25/24;G10L25/45 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 錢莉;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 序列 分類 特定 聲音 事件 檢索 定位 方法 | ||
本發明涉及一種基于序列分類的特定聲音事件檢索與定位的方法,通過利用聲音的時序性和注意力機制關注重要的上下文信息以提取特定目標聲音事件的聲音深層特征,再通過多任務學習聯合回歸損失和分類損失來訓練特定聲音事件檢索網絡。給定音頻文件進行特定音頻事件檢索和定位時,首先,將待測聲音片段的梅爾特征能量輸入到聲音檢索模型中,得到每個聲音片段的特定聲音事件的檢索結果,再通過后處理定位特定聲音事件出現的起止音頻幀,最后通過平滑處理得到音頻文件完整的特定聲音事件檢索和定位信息。
技術領域
本發明涉及音頻信號處理領域,特別是一種基于序列分類的特定 聲音事件檢索與定位的方法。
背景技術
為了更好的介紹音域的概念,先介紹一些基本概念。
音頻:音頻信號一般分為語音信號和非語音信號兩大類。語音主 要是人類通過發音器官發出的、進行語音交流時的聲音;而非語音則 包括大自然各種聲音,范圍甚是寬廣。
聲音事件:聲音事件是指音頻流中具有某種特定語義或內容的一 個音頻片段,例如,街道中的風聲,行人的走路聲和說話聲,以及汽 車行駛的聲音等等。
聲音事件檢測(Sound Event Detection,SED),也稱為音頻事件檢測, 是指在給定的音頻記錄中,找出感興趣的聲音事件,判定每一個事件 的類別,并定位每一個事件在音頻記錄中的起始和結束位置。
梅爾能量:梅爾能量特征將線性頻譜映射到基于聽覺感知的Mel 非線性頻譜中。
雙向GRU網絡:雙向GRU網絡的前向和后向網絡有32個GRU單元; 前向和后向兩個GRU神經單元使用共同的輸入,連接著共同的輸 出;這個結構提供了輸入序列中每個點完整的過去和未來的上下文 時序信息。
多任務學習:多任務學習是利用任務之間的共享信息同時對多個 任務進行學習的一種機器學習算法。多任務在同時進行學習的過程中, 通過利用多個任務之間的相關性(共享信息),以避免學習方法的欠 學習,從而提升關鍵任務的泛化性能。多任務學習與單任務學習的區 別之處在于:單任務學習是一次學習一個任務,建立對應模型,各個 任務的學習是相互獨立的,多任務學習則同時考慮了多個任務之間內 在相關性,以提高模型的泛化能力。
注意力機制:人類的注意力機制(Attention Mechanism)使得 當人的大腦接受到外部信息時,如聽覺信息、視覺信息,往往不會對 全部信息進行處理和理解,而只會將注意力集中在顯著或者感興趣的 信息上,有助于語音識別、自然語言處理、圖像檢索等任務的完成。 因此,人們通過構建注意力模型來模擬這種能力,以用于從眾多信息 中篩選出針對當前任務有用的重要信息。
單一的視頻圖像監控雖然目前在實際家庭安防應用中占據主要 的地位,但是也存在一些不利條件,比如在光照條件不好或者夜晚時, 或者目標物體被其他東西遮擋時,視頻圖像監控發揮的作用大大削 弱,而音頻監控則不受此影響。利用重疊聲音檢測技術,把各種聲音 分離出來,去除環境噪音,關注異常的聲音,例如尖叫聲、槍聲等預 示危險的異常聲音。視頻監控與聲音檢測相結合能夠發揮出更大的效 能,例如通過聲音檢測分離出異常聲音,再定位到音源,然后快速使 攝像頭轉向音源。相較單一的視頻監控,二者結合能夠提升室內安防 的效果。單一的重疊聲音檢索也可用在視頻監控無法部署的地方,或 者攝像頭不方便部署的地方,來彌補視頻監控的不足。
發明內容
有鑒于此,本發明的目的是提供本發明的目的是提供一種基于序 列分類的特定聲音事件檢索與定位的方法,對待測音源文件進行分析, 利用聲音的時序性和注意力機制關注重要的上下文信息以提取特定 目標聲音事件的聲音深層特征,再通過多任務學習聯合回歸損失和分 類損失來訓練特定聲音檢索模型。使用該模型可以檢索待測音頻包含 的特定聲音事件和位置信息。
本發明采用以下方案實現:一種基于序列分類的特定聲音事件檢 索與定位的方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911363277.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種空間X射線光度計
- 下一篇:一種大轉子鋼銅瞬間液態擴散連接的復合方法





