[發明專利]語音增強模型的訓練方法及裝置、語音增強方法及裝置有效
| 申請號: | 202110774752.3 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN113241088B | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 任新蕾;張旭;鄭羲光;陳聯武;張晨 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L25/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 蘇銀虹;王兆賡 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 增強 模型 訓練 方法 裝置 | ||
1.一種語音增強模型的訓練方法,其特征在于,所述語音增強模型包括復數掩碼網絡和波束形成模塊,所述訓練方法包括:
獲取訓練樣本集,其中,所述訓練樣本集中每個訓練樣本包括多通道含噪語音信號和對應的多通道干凈語音信號,所述多通道含噪語音信號是所述對應的多通道干凈語音信號添加噪聲和混響后的語音信號;
將多通道含噪語音信號的復數譜輸入到所述復數掩碼網絡,得到每個通道的復數掩碼,其中,所述復數掩碼表示的是含噪語音信號中干凈語音信號的占比;
基于每個通道的復數譜與對應的復數掩碼,得到每個通道的增強復數譜;
將每個通道的增強復數譜輸入到所述波束形成模塊,得到單通道的預估增強復數譜;
基于所述預估增強復數譜對應的預估時域信號和所述多通道干凈語音信號中預定通道的干凈語音信號,確定所述語音增強模型的目標損失函數;
根據所述目標損失函數調整所述復數掩碼網絡的參數,對所述語音增強模型進行訓練;
其中,所述基于所述預估增強復數譜對應的預估時域信號和所述多通道干凈語音信號中預定通道的干凈語音信號,確定所述語音增強模型的目標損失函數,包括:基于所述多通道干凈語音信號中預定通道的干凈語音信號和所述預定通道的含噪語音信號,獲取真實噪聲信號;基于所述預估時域信號和所述預定通道的含噪語音信號,獲取預估噪聲信號;基于所述預估時域信號和所述預定通道的干凈語音信號的差值的絕對值、所述預估噪聲信號和所述真實噪聲信號的差值的絕對值,確定所述語音增強模型的目標損失函數。
2.如權利要求1所述的訓練方法,其特征在于,所述預定通道為多通道對應的麥克風陣列中位置居中的通道。
3.如權利要求1或2所述的訓練方法,其特征在于,所述復數掩碼網絡包括因果U-NET網絡。
4.一種語音增強方法,其特征在于,包括:
獲取待處理的多通道含噪語音信號;
將多通道含噪語音信號的復數譜輸入到語音增強模型中復數掩碼網絡,得到每個通道的復數掩碼;
基于每個通道的復數譜與對應的復數掩碼,得到每個通道的增強復數譜;
將每個通道的增強復數譜輸入到語音增強模型中波束形成模塊,得到單通道的增強復數譜;
獲取所述增強復數譜對應的時域信號,并將所述時域信號作為所述多通道含噪語音信號的增強語音信號;
其中,所述語音增強模型是通過如權利要求1至3中任一項所述的訓練方法訓練得到的。
5.如權利要求4所述的語音增強方法,其特征在于,所述獲取所述增強復數譜對應的時域信號,包括:
將所述增強復數譜進行濾波處理;
基于濾波處理后的增強復數譜得到對應的時域信號。
6.如權利要求4或5所述的語音增強方法,其特征在于,所述復數掩碼網絡包括因果U-NET網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110774752.3/1.html,轉載請聲明來源鉆瓜專利網。





