[發明專利]語音增強模型的訓練方法和裝置及語音增強方法和裝置有效
| 申請號: | 202011556441.1 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112289333B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 張新;郭亮;鄭羲光;張晨 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0216;G10L25/03;G10L25/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 蘇銀虹;曾世驍 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 增強 模型 訓練 方法 裝置 | ||
本公開關于一種語音增強模型的訓練方法和裝置及語音增強方法和裝置,所述訓練方法包括:獲取多個說話人的語音樣本,每個說話人的語音樣本包括含噪語音樣本和第一純凈語音樣本,含噪語音樣本是根據與說話人對應的第二純凈語音樣本添加噪聲數據得到的;根據含噪語音樣本和第一純凈語音樣本,獲取每個說話人對應的特征向量和含噪語音樣本的幅度譜,特征向量是使用特征提取網絡提取第一純凈語言樣本得到的;將幅度譜和特征向量輸入語音增強網絡,得到估計的掩膜比;根據估計的掩膜比確定估計的增強語音信號,根據估計的增強語音信號和第二純凈語音樣本確定語音增強模型的損失函數;通過根據損失函數調整特征提取網絡和語音增強網絡的模型參數。
技術領域
本公開涉及音頻技術領域,更具體地說,涉及一種語音增強模型的訓練方法和裝置及語音增強方法和裝置。
背景技術
在一定的應用場景下(如會議,街道),音頻中會混有較多的其他人說話的聲音和背景噪聲,大多數情況下為瞬態噪聲,由于傳統的只能處理穩態噪聲,所以通常采用深度學習的方法進行語音增強。語音增強的目的是提升語音的可懂度和音質,使得處理后的音頻達到更容易傳遞信息和聽覺舒適的作用。然而,語音增強通常是單純去除背景噪聲,而剩余的語音可能為多個說話人的混合語音,語音可懂度依然較低。
發明內容
本公開提供一種語音增強模型的訓練方法和裝置及語音增強方法和裝置,以至少解決上述相關技術中的問題,也可不解決任何上述問題。
根據本公開實施例的第一方面,提供一種語音增強模型的訓練方法,所述語音增強模型包括特征提取網絡和語音增強網絡,所述訓練方法包括:獲取多個說話人的語音樣本,其中,每個說話人的語音樣本包括含噪語音樣本和第一純凈語音樣本,其中,所述含噪語音樣本是根據與說話人對應的第二純凈語音樣本添加噪聲數據得到的;根據所述含噪語音樣本和第一純凈語音樣本,獲取每個說話人對應的特征向量和所述含噪語音樣本的幅度譜,其中,所述特征向量是使用所述特征提取網絡提取第一純凈語言樣本得到的;將所述幅度譜和所述特征向量輸入所述語音增強網絡,得到估計的掩膜比,其中,所述掩膜比表示純凈語音信號幅度譜與含噪語音信號幅度譜的比值;根據所述估計的掩膜比確定估計的增強語音信號,根據估計的增強語音信號和第二純凈語音樣本確定所述語音增強模型的損失函數;通過根據所述損失函數調整所述特征提取網絡和所述語音增強網絡的模型參數,對所述語音增強模型進行訓練。
可選地,第一純凈語音樣本和第二純凈語音樣本可不同。
可選地,每個說話人的第一純凈語音樣本可包括多條純凈語音樣本;其中,所述獲取每個說話人對應的特征向量,可包括:將所述多條純凈語音樣本的幅度譜輸入所述特征提取網絡,獲得每個說話人對應的多個特征向量。
可選地,每個說話人的第二純凈語音樣本可包括多條純凈語音樣本,相應得到的每個說話人對應的所述含噪語音樣本包括多條含噪語音樣本;其中,所述獲取每個說話人對應的所述含噪語音樣本的幅度譜,可包括:分別提取所述多條含噪語音樣本的幅度譜以獲得每個說話人對應的多個幅度譜。
可選地,所述將所述幅度譜和所述特征向量輸入所述語音增強網絡,得到估計的掩膜比,可包括:將每個說話人對應的所述多個特征向量求平均,獲得每個說話人對應的平均特征向量;將每個說話人對應的平均特征向量擴充至與每個說話人對應的所述多個幅度譜相同的維度;分別將每個說話人的所述多個幅度譜與相應說話人的擴充后的平均特征向量進行串聯以獲得每個說話人對應的多個串聯后的特征;將每個說話人對應的所述多個串聯后的特征作為所述語音增強網絡的輸入。
可選地,所述根據所述估計的掩膜比確定估計的增強語音信號,可包括:分別將所述幅度譜與所述估計的掩膜比相乘,獲得估計的幅度譜,并將所述估計的幅度譜與所述含噪語音樣本的相位譜結合并執行時頻逆變換,以獲得估計的增強語音。
可選地,所述根據估計的增強語音信號和第二純凈語音樣本確定所述語音增強模型的損失函數,可包括:基于估計的增強語音信號和第二純凈語音樣本,計算語音失真度,作為所述損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011556441.1/2.html,轉載請聲明來源鉆瓜專利網。





