[發明專利]一種基于多任務學習的音頻場景識別方法及裝置有效
申請號: | 202110362915.7 | 申請日: | 2021-04-02 |
公開(公告)號: | CN113220932B | 公開(公告)日: | 2022-06-10 |
發明(設計)人: | 冷嚴;路安芹;劉禎;孫建德;唐勇;王榮燕;齊廣慧;李登旺;萬洪林 | 申請(專利權)人: | 山東師范大學 |
主分類號: | G06F16/65 | 分類號: | G06F16/65;G06F16/68;G06F16/683 |
代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 祖之強 |
地址: | 250014 山*** | 國省代碼: | 山東;37 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 任務 學習 音頻 場景 識別 方法 裝置 | ||
本發明提供了一種基于多任務學習的音頻場景識別方法及裝置,該方法在訓練階段提取音頻片段的特征矩陣,為其添加音頻場景標簽;為音頻幀添加音頻事件標簽,構建訓練集;構建音頻事件與音頻場景識別模型;基于交叉熵L1與交叉熵和L2構造損失函數,基于該損失函數對音頻事件與音頻場景識別模型進行訓練,得到訓練好的模型。測試階段,提取待識別音頻片段的特征矩陣作為訓練好的音頻事件與音頻場景識別模型的輸入,在音頻場景識別模型輸出層得到待識別音頻片段在各個場景類上的概率分布,取具有最大概率值的場景類作為識別結果。本發明可以大幅度減少模型參數數量;可以節省標注成本;對于缺乏音頻事件標簽的音頻場景數據庫,本發明同樣適用。
技術領域
本發明屬于音頻場景識別相關技術領域,尤其涉及一種基于多任務學習的音頻場景識別方法及裝置。
背景技術
本部分的陳述僅僅是提供了與本發明相關的背景技術信息,不必然構成在先技術。
音頻場景識別是指通過音頻判斷音頻錄制的周圍場景信息。音頻場景識別具有廣闊的應用前景,可以廣泛用于刑偵追蹤、自動駕駛、安全監控等領域,在近幾年得到科研界和工業界的廣泛重視。
音頻事件檢測和音頻場景識別作為音頻領域的兩大研究方向,通常是被分開研究的,但是,音頻場景中通常包含一系列音頻事件,音頻場景類是對這一系列音頻事件的高層語義表達,因此,音頻事件檢測研究和音頻場景識別研究之間有著必然的聯系,合理地結合音頻事件檢測技術將有助于提高音頻場景識別的準確率。
發明內容
本發明為了解決上述合理地結合音頻事件檢測技術,以提高音頻場景識別準確率問題,提供了一種基于多任務學習的音頻場景識別方法及裝置,該方法通過多任務學習,在一個模型中同時實現音頻事件檢測和音頻場景識別,并通過注意力機制將音頻事件檢測和音頻場景識別進行有效結合,使音頻事件檢測輔助提高音頻場景識別準確率。
為了實現上述目的,本發明采用如下技術方案:
本發明的第一個方面提供一種基于多任務學習的音頻場景識別方法。
一種基于多任務學習的音頻場景識別方法,包括:
步驟(1):獲取音頻數據庫,對每個音頻場景片段進行分幀處理,提取每幀的音頻特征,每個音頻片段內所有幀的音頻特征構成該音頻片段的特征矩陣,構建音頻特征訓練集,并為每個音頻場景片段添加音頻場景標簽;
步驟(2):采用聚類方法為音頻特征訓練集中的每個音頻幀添加音頻事件標簽;
步驟(3):構建音頻事件與音頻場景識別模型,將步驟(1)中的音頻片段的特征矩陣輸入音頻事件與音頻場景識別模型中,基于當前音頻片段的場景標簽和音頻場景識別輸出層的輸出求取交叉熵L1,同時基于當前音頻片段中音頻幀的音頻事件標簽和音頻事件檢測輸出層的輸出求取交叉熵,進而得到當前音頻片段所有幀的交叉熵和L2;
步驟(4):基于交叉熵L1和交叉熵和L2構造損失函數,基于該損失函數對音頻事件與音頻場景識別模型進行訓練,得到訓練好的音頻事件與音頻場景識別模型;
步驟(5):對待識別的音頻片段,用和步驟(1)中同樣的方法對其進行分幀處理,提取每幀的音頻特征,音頻片段內所有幀的音頻特征構成待識別音頻片段的特征矩陣。將待識別音頻片段的特征矩陣輸入訓練好的音頻事件與音頻場景識別模型,在音頻場景識別輸出層得到待識別音頻片段在各個音頻場景類上的概率分布,取具有最大概率值的音頻場景類作為識別結果。
優選的,所述特征矩陣為logmel特征矩陣。
本發明的第二個方面提供一種基于多任務學習的音頻場景識別裝置。
一種基于多任務學習的音頻場景識別裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110362915.7/2.html,轉載請聲明來源鉆瓜專利網。