[發明專利]一種基于監督變分編碼器因素分解的混合聲音事件檢測方法有效
| 申請號: | 201910179592.0 | 申請日: | 2019-03-11 |
| 公開(公告)號: | CN110070895B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 毛啟容;高利劍;陳靜靜;黃多林;張飛飛;楊小汕;秦謙 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L15/02;G10L15/06;G10L25/24;G10L25/30;G10L25/51 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 編碼器 因素 分解 混合 聲音 事件 檢測 方法 | ||
本發明公開了一種基于監督變分編碼器因素分解的混合聲音事件檢測方法,包括如下步驟:接收語音信號,并對語音信號進行預處理;提取預處理后的語音信號特征;使用監督變分自動編碼器提取聲音事件潛在屬性空間;使用因素分解方法分解構成混合聲音的各種因素,進而學習得到每個特定聲音事件相關的特征表示;再使用對應的聲音事件檢測器檢測特定聲音事件是否發生。本發明采用因素分解學習的方法解決混合聲音中聲音事件類別較多的情況下,聲音事件檢測準確率不高的問題,有效提高真實場景聲音事件檢測的準確度,且該方法還可用于說話人識別等任務。
技術領域
本發明涉及語音信號處理、模式識別等領域,特別涉及一種關于變分自動編碼器和因素分解方法的聲音事件檢測方法。
背景技術
多類別聲音事件檢測是指從一個混有多種聲音的事件當中,檢測出每種事件是否發生。與傳統少類別聲音事件檢測相比,在現實領域的適用性更廣,在醫學場景監聽、交通場景聲音事件檢測等領域有著廣闊的應用前景和實際意義。
傳統的多類別聲音事件檢測方法主要是采用語音識別和模板匹配的思想,例如,使用混合高斯模型和以梅爾頻率倒譜系數為特征的隱馬爾可夫模型,或者是使用非負矩陣分解來表示每一種事件,并將其與聲音事件詞典進行匹配;然而,這種傳統方法中的手工特征并不能完全表示不同的聲音事件。最近,引入帶有瓶頸層的深度神經網絡來學習多類別聲音事件檢測的瓶頸特征,取得了很好的結果,但是準確率不是很高。無監督特征表示學習在捕獲數據生成因子方面取得了不錯的進展,然而如果直接用于多類別聲音事件檢測,則會為所有的聲音事件學習到同樣的一組特征,這可能會導致性能的下降,也就是說,這組特征對于多類別聲音事件沒有足夠的辨別能力。盡管目前很多方法已經通過特征學習取得了一些新的進展,但是目前仍然沒有解決如何通過因素分解的方法進行多類別聲音事件檢測,這正是現實環境中聲音事件檢測的重中之重。
發明內容
本發明提供一種因素分解方法,使得分解出的特征不受與檢測任務無關的因素干擾,分解出的特征只針對每一個特定的聲音事件,從而解決多類別聲音事件檢測在真實環境當中準確率不高的問題,提高檢測的準確度。
為了解決以上技術問題,本發明首先對語音信號進行預處理、提取特征,然后通過監督變分編碼器提取聲音事件潛在屬性空間,再通過因素分解的方法學習到每個特定聲音事件的特征表示,然后使用對應的聲音事件檢測器檢測特定聲音事件是否發生。
具體技術方案如下:
一種基于監督變分編碼器因素分解的混合聲音事件檢測方法,包括下列步驟:
步驟一,對語音信號進行預處理;
步驟二,提取預處理后的語音信號特征;
步驟三,使用監督變分自動編碼器提取聲音事件潛在屬性空間;
步驟四,使用因素分解方法分解構成混合聲音的各種因素,進而學習得到每個特定聲音事件的特征表示;
步驟五,使用對應的聲音事件檢測器檢測特定聲音事件是否發生。
進一步,所述步驟一具體為:將語音信號按照固定的幀長度進行分幀,幀與幀之間有重疊部分。
進一步,所述步驟二具體為:提取預處理后語音信號的梅爾頻率倒譜系數。
進一步,所述步驟三中聲音事件潛在屬性空間具體為:將輸入的語音信號特征壓縮到低維高斯分布中。
進一步,所述步驟四中特定聲音事件的特征表示其中ak為聲音事件潛在屬性空間的注意力權重,z為聲音事件潛在屬性空間。
進一步,所述步驟五中對應的聲音事件檢測器采用深度神經網絡作為檢測器網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910179592.0/2.html,轉載請聲明來源鉆瓜專利網。





