[發明專利]一種基于監督變分編碼器因素分解的混合聲音事件檢測方法有效
| 申請號: | 201910179592.0 | 申請日: | 2019-03-11 |
| 公開(公告)號: | CN110070895B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 毛啟容;高利劍;陳靜靜;黃多林;張飛飛;楊小汕;秦謙 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L15/02;G10L15/06;G10L25/24;G10L25/30;G10L25/51 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 編碼器 因素 分解 混合 聲音 事件 檢測 方法 | ||
1.一種基于監督變分編碼器因素分解的混合聲音事件檢測方法,其特征在于,包括下列步驟:
步驟一,對語音信號進行預處理;
步驟二,提取預處理后的語音信號特征;
步驟三,使用監督變分自動編碼器提取聲音事件潛在屬性空間;
用長短期記憶網絡將輸入的5幀語音信號特征X壓縮到低維高斯分布當中去,該高斯分布的均值和方差分別為μ和σ,計算聲音事件潛在屬性空間z=(μ+σ⊙ε),其中ε是服從于 均值為0、方差為1的正態分布的隨機數;
步驟四,使用因素分解方法分解構成混合聲音的各種因素,進而學習得到每個特定聲音事件的特征表示;
所示特定聲音事件的特征表示其中ak為聲音事件潛在屬性空間的注意力權重,z為聲音事件潛在屬性空間;所述ak由設計的K個注意力層,并使用softmax函數對聲音事件潛在屬性空間進行激活后獲取;并利用
計算后驗分布與先驗分布之間的KL散度;其中,i代表第i個樣本,和分別是的均值和方差,對于每一個特征表示來說,后驗分布應該與先驗分布相匹配,服從于均值為0、方差為1的標準正態分布,其中i=1…I,I表示總的樣本數,k=1…K,k為第k個聲音事件;
步驟五,使用對應的聲音事件檢測器檢測特定聲音事件是否發生
用對應的聲音事件檢測器檢測特定聲音事件是否發生,是指為每一個特定的聲音事件類型構造一個聲音事件檢測器,用二分類函數sigmoid來檢測對應的聲音事件發生的概率,從而判斷該事件是否發生,其方法為:
Detector即為構造的聲音事件檢測器,每一個聲音事件檢測器對應一個檢測器是一個以sigmoid函數作為輸出的多層感知器;
所有的檢測器都用一個二值交叉熵損失作為損失函數來進行訓練:
其中,代表第i個樣本的真實值,為1或者0;是第i個樣本被識別為第k個聲音事件的可能性;
總的特定事件因素分解損失函數為:
其中,β衡量每一個聲音事件的潛在表示的因素分解程度;
再訓練了一個解碼器來通過聲音事件潛在屬性空間z來對輸入的語音信號特征進行重構,以確保潛在屬性空間z捕獲到了數據生成因子,解碼器的損失函數為:
E表示采用均方誤差損失函數;
定義最后的總的損失函數為:
Ls-β-VAE(θ,φ,θ';x,y,z)=Lrecons(θ,φ;x,z)+λLdisent(φ,θ';x,y,z)
其中,λ是衡量聲音事件檢測和重構任務的權重因子。
2.根據權利要求1所述的基于監督變分編碼器因素分解的混合聲音事件檢測方法,其特征在于,所述步驟一具體為:將語音信號按照固定的幀長度進行分幀,幀與幀之間有重疊部分。
3.根據權利要求1所述的基于監督變分編碼器因素分解的混合聲音事件檢測方法,其特征在于,所述步驟二具體為:提取預處理后語音信號的梅爾頻率倒譜系數。
4.根據權利要求1所述的基于監督變分編碼器因素分解的混合聲音事件檢測方法,其特征在于,所述步驟五中對應的聲音事件檢測器采用深度神經網絡作為檢測器網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910179592.0/1.html,轉載請聲明來源鉆瓜專利網。





