[發明專利]基于強約束字典和深度神經網絡的兩階段單通道語音分離方法在審
| 申請號: | 202210532215.2 | 申請日: | 2022-05-09 |
| 公開(公告)號: | CN114898769A | 公開(公告)日: | 2022-08-12 |
| 發明(設計)人: | 孫林慧;龔艾飛;袁碩;步云怡 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0308;G10L25/30 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 葉江栩 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 約束 字典 深度 神經網絡 階段 通道 語音 分離 方法 | ||
1.基于強約束字典和深度神經網絡的兩階段單通道語音分離方法,其特征在于,包括如下步驟,
步驟S1.提取干凈語音信號和混合語音信號的幅度譜,利用K-SVD算法計算干凈語音信號的子字典D1和D2,將子字典拼接成聯合字典D=[D1,D2],在強約束的優化函數限制下迭代更新字典;
步驟S2.將另一份訓練樣本在字典D上投影獲取混合信號在D上的稀疏編碼矩陣C=[C1,C2]T,重構獲取第一階段分離出的語音信號幅度譜和
步驟S3.和經過DNN獲取估計的理想比率掩碼M1和M2,將掩碼分別與和進行哈達瑪積獲取第二階段精細估計的幅度譜和幅度譜和混合信號的相位相乘恢復出語音信號。
2.根據權利要求1所述的基于強約束字典和深度神經網絡的兩階段單通道語音分離方法,其特征在于,所述步驟S1的具體步驟為,
步驟S11.對每一句輸入的時域連續語音信號進行采樣,再進行短時傅里葉變換獲取預處理后的語音信號;
步驟S12.計算預處理后的語音信號的幅度譜S1和S2,基于K-SVD算法分別訓練獲取對應的身份子字典D1和D2,拼接D1和D2獲取初始聯合字典D=[D1,D2];
步驟S13.固定D,通過OMP算法在目標函數約束下求得混合信號Y在D上的稀疏編碼矩陣C;
步驟S14.固定C,通過L-BFGS算法求強約束優化函數來更新字典,獲取強約束優化后的字典。
3.根據權利要求2所述的基于強約束字典和深度神經網絡的兩階段單通道語音分離方法,其特征在于,所述步驟S14中,通過L-BFGS算法求強約束優化函數來更新字典的具體方法為,
步驟S141.定義強約束優化函數為
其中,和分別為單個干凈信號S1和S2在聯合字典D上投影的稀疏編碼矩陣,和為和中在自身子字典上的投影部分;
步驟S142.定義矩陣和其中I為單位矩陣,O為全零矩陣;
步驟S143.強約束優化函數改寫為
目標函數的梯度函數為
步驟S144.經過多次迭代求解獲取更新后的優化字典,使混合信號在該字典上投影時能區分不同的源信號。
4.根據權利要求1所述的基于強約束字典和深度神經網絡的兩階段單通道語音分離方法,其特征在于,所述步驟S2的具體步驟為,
步驟S21.混合信號在字典D上投影得到估計的稀疏編碼矩陣
步驟S22.根據重構得到第一階段分離出的語音信號幅度譜和
5.根據權利要求1所述的基于強約束字典和深度神經網絡的兩階段單通道語音分離方法,其特征在于,所述步驟S3的具體步驟為,
步驟S31.構建DNN網絡框架,包含一個輸入層、三個隱藏層和一個輸出層;
步驟S32.目標語音的理想比率掩碼作為DNN網絡的訓練目標,定義聯合約束損失函數對網絡進行約束;
步驟S33.將第一階段分離出的語音信號幅度譜和輸入DNN網絡中,輸出估計的理想比率掩碼M1和M2;
步驟S34.M1和M2分別與和進行哈達瑪積獲取第二階段精細估計的幅度譜和
步驟S35.和與混合信號的相位相乘恢復出目標語音信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210532215.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型海上石油回收裝置
- 下一篇:一種高性能的摩托車四缸節氣門體





