[發明專利]一種基于集成學習的音頻場景識別方法有效
| 申請號: | 201910235050.0 | 申請日: | 2019-03-26 |
| 公開(公告)號: | CN110046655B | 公開(公告)日: | 2023-03-31 |
| 發明(設計)人: | 張濤;劉贛俊 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/24 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 杜文茹 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 學習 音頻 場景 識別 方法 | ||
一種基于集成學習的音頻場景識別方法,包括:將單聲道音頻信號、左右聲道音頻信號、中央邊側聲道音頻信號分別作為三組訓練集;對三組訓練集分別進行音頻特征提取,分別用于訓練三個分類器網路;將訓練集的音頻特征作為分類器網絡的輸入,訓練分類器網絡,在已有的測試集中根據分類器網絡的輸出結果識別音頻場景;將三個分類器網絡進行集成學習,根據集成學習后的輸出去識別音頻場景。本發明相比于單個分類器網絡的準確率,平均提升了9.3%。很好的解決了單個分類器網絡的學習能力和泛化能力不足的問題,可以對整個數據集中的復雜音頻進行全面的建模。能夠得到高性能的音頻場景識別系統。
技術領域
本發明涉及一種音頻場景識別方法。特別是涉及一種用于多個音頻場景識別子模型集成學習的基于集成學習的音頻場景識別方法。
背景技術
目前,用于音頻場景識別通常采用如下方法。
1、音頻場景識別描述
音頻場景識別的數據是在現實環境中直接采集的,就必然存在重疊聲音的存在。人類生活在一個復雜的音頻環境中,在忽略或簡單地承認其他聲音來源的同時,能夠很好地遵循特定的聲源。例如,我們可以在一個由其他人談話或音樂組成的繁忙的背景下進行談話。音頻場景識別自動分類的性能在這一任務中受到了很大的限制。聲混合信號包含多個同時發生的聲音事件,機器聽覺系統在識別這些聲音事件方面還遠遠沒有達到人類的水平。單個的聲音事件可以用來描述一個音頻場景:它們可以以一種象征性的方式來代表一個繁忙街道上的場景,汽車經過,汽車喇叭和人們匆忙的腳步。
音頻場景識別與分類的目的是對聲音信號進行處理,將其轉化為現場出現的相應聲音事件的符號描述,用于自動標注、自動聲音分析或音頻分割等應用。以往與音頻場景識別相關的研究都是考慮帶有顯式標注的重疊事件的音頻場景,但是檢測結果是以序列的形式呈現的,假設每次只包含最顯著的事件。在這方面,系統每次只能找到一個場景,如果檢測到的場景包含在注釋中,則評估會認為輸出是正確的。在多源環境中,這種系統的性能非常有限。
2、卷積神經網絡工作原理
卷積神經網絡(Convolutional Neural Network,CNN)是一種深度的監督學習下的機器學習模型,具有極強的適應性,善于挖掘數據局部特征,提取全局訓練特征和分類,它的權值共享結構網絡使之更類似于生物神經網絡,一定程度上減輕了DNN的參數數量膨脹問題。相比于常規的深度學習方法,CNN不僅可以處理高維數據,具有捕獲局部特性的特點,還可以捕獲經常性的局部結特性。在處理復雜且存在重疊的日常音頻信號時,具有明顯的有效性和優勢性。
對于CNN來說,不是所有的上下層神經元都能直接相連,而需要通過“卷積核”作為中介。同一個卷積核在多有圖像內是共享的,圖像通過卷積操作仍能保留原先的位置關系。
CNN卷積神經網絡包括輸入層、卷積層、池化層、全接連層、輸出層。卷積神經網絡是一個多層的神經網絡,每層由多個二維平面組成,而每個平面由多個獨立神經元組成。其輸出層節點數一般等于分類類別數,即采用獨熱編碼方式對標簽進行編碼。
發明內容
本發明所要解決的技術問題是,提供一種訓練集準確率高、適用多種音頻場景基于集成學習的音頻場景識別方法。
本發明所采用的技術方案是:一種基于集成學習的音頻場景識別方法,包括如下步驟:
1)將單聲道音頻信號、左右聲道音頻信號、中央邊側聲道音頻信號分別作為三組訓練集;
2)對三組訓練集分別進行音頻特征提取,分別用于訓練三個分類器網路;
3)將訓練集的音頻特征作為分類器網絡的輸入,訓練分類器網絡,在已有的測試集中根據分類器網絡的輸出結果識別音頻場景;
4)將三個分類器網絡進行集成學習,根據集成學習后的輸出去識別音頻場景。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910235050.0/2.html,轉載請聲明來源鉆瓜專利網。





