[發明專利]一種單通道語音同時降噪和去混響系統有效
| 申請號: | 202010985378.7 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112017682B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 范存航;溫正棋 | 申請(專利權)人: | 中科極限元(杭州)智能科技股份有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L25/30;G06N3/0464;G06N3/08 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 楊小凡 |
| 地址: | 310016 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通道 語音 同時 混響 系統 | ||
1.一種單通道語音同時降噪和去混響系統,其特征在于包括:語音降噪模塊、語音去混響模塊和聯合訓練模塊,語音降噪模塊利用深度聚類算法訓練深度嵌入式特征提取器,從混合的語音信號中提取深度嵌入式特征,將輸入的混合語音映射到一個沒有噪聲的嵌入式空間中,語音去混響模塊與語音降噪模塊連接,將混響語音信號從深度嵌入式特征中去除,估計出干凈目標的直達聲,聯合訓練模塊分別與語音降噪模塊和語音去混響模塊連接,用于聯合優化語音降噪和語音去混響模塊;
所述聯合訓練模塊將語音降噪模塊的目標函數和語音去混響模塊的目標函數以一定的權重進行線性相加作為最終的目標函數,以此來進行聯合優化語音降噪模塊和語音去混響模塊;
所述語音降噪模塊對輸入的混合語音信號進行短時傅里葉變換,將時域信號變換到頻域信號后,對其進行建模,利用深度聚類算法提取深度嵌入式特征,將輸入的混合語音映射到一個沒有噪聲的嵌入式空間中,深度嵌入式特征利用深度神經網絡訓練得到,語音降噪模塊的訓練損失目標函數為:
V是深度嵌入式特征,表示實數,TF是經過傅里葉變換后的時頻塊,B是每一個時頻塊直達聲和混響的對應關系,如果直達聲在時頻塊tf比混響的能量大,則Btf,1=1且Btf,2=0;否則Btf,1=0且Btf,2=1,表示平方Frobenius范數。
2.如權利要求1所述的一種單通道語音同時降噪和去混響系統,其特征在于所述語音去混響模塊利用深度神經網絡實現,網絡的輸入為深度嵌入式特征,輸出為估計的目標浮點掩蔽值,公式如下:
是估計的目標浮點掩蔽值,語音去混響模塊的訓練損失目標函數為:
|Y(t,f)|是混合語音的幅值譜,|X(t,f)|是目標干凈直達聲的幅值譜,利用輸入的混合語音的幅值譜|Y(t,f)|與估計的目標浮點掩蔽值進行逐點乘積,得到估計的目標干凈直達聲的幅值譜,在估計的目標干凈直達聲的幅值譜和目標干凈直達聲的幅值譜之間計算均方誤差。
3.如權利要求1所述的一種單通道語音同時降噪和去混響系統,其特征在于所述聯合訓練模塊總的訓練目標函數為:
Jtotal=λJDC+(1-λ)J
λ是語音降噪模塊和語音去混響模塊的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科極限元(杭州)智能科技股份有限公司,未經中科極限元(杭州)智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010985378.7/1.html,轉載請聲明來源鉆瓜專利網。





