[發明專利]音頻分離網絡的訓練方法、音頻分離方法、裝置及介質有效
| 申請號: | 202010086752.X | 申請日: | 2020-02-11 |
| 公開(公告)號: | CN111341341B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 王珺;林永業;蘇丹;俞棟 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 崔曉嵐;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 分離 網絡 訓練 方法 裝置 介質 | ||
本申請實施例提供了一種音頻分離網絡的訓練方法、音頻分離方法、裝置及介質;所述方法包括:獲取第一分離樣本集合,所述第一分離樣本集合中至少包括兩類具有偽標簽的音頻;采用擾動數據對所述第一分離樣本集合進行插值,得到第一樣本集合;采用無監督網絡對所述第一樣本集合進行分離,得到第二分離樣本集合;確定所述第二分離樣本集合中第二分離樣本的損失;采用所述第二分離樣本的損失,對所述無監督網絡的網絡參數進行調整,以使調整后的無監督網絡輸出的分離結果的損失滿足收斂條件。通過采用第一樣本集合作為訓練無監督網絡的樣本,豐富了無監督網絡的樣本數據,并增強了無監督網絡的泛化能力。
技術領域
本申請涉及機器學習領域,尤其涉及音頻分離網絡的訓練方法、音頻分離方法、裝置及介質。
背景技術
在相關技術中,基于深度學習的語音分離網絡存在泛化能力差的問題,即使是最先進的語音分離網絡在不匹配的情況下進行評估時也可能突然失效。通常由于時間、人力和成本的限制,大規模、覆蓋范圍廣、足夠多樣化的有標注訓練數據的采集往往是不切實際的,而標注數據的不足易于導致有大量參數的復雜網絡的過擬合和差的泛化能力。
發明內容
本申請實施例提供一種音頻分離網絡的訓練方法、音頻分離方法、裝置及介質,能夠采用第一樣本集合作為訓練無監督網絡的樣本,豐富了無監督網絡的樣本數據,并增強了無監督網絡的泛化能力。
本申請實施例的技術方案是這樣實現的:
第一方面,本申請實施例提供一種音頻分離網絡的訓練方法,包括:
獲取第一分離樣本集合,所述第一分離樣本集合中至少包括兩類具有偽標簽的音頻;
采用擾動數據對所述第一分離樣本集合進行插值,得到第一樣本集合;
采用無監督網絡對所述第一樣本集合進行分離,得到第二分離樣本集合;
確定所述第二分離樣本集合中第二分離樣本的損失;
采用所述第二分離樣本的損失,對所述無監督網絡的網絡參數進行調整,以使調整后的無監督網絡輸出的分離結果的損失滿足收斂條件。
第二方面,本申請實施例提供一種音頻分離方法,所述方法包括:
獲取待分離音頻;
采用已訓練的神經網絡對所述待分離音頻進行分離,得到分離結果;其中,所述神經網絡為基于上述的音頻分離網絡的訓練方法訓練得到的;
輸出所述分離結果。
第三方面,本申請實施例提供一種音頻分離網絡的訓練裝置,所述裝置包括:
第一獲取模塊,用于獲取第一分離樣本集合,所述第一分離樣本集合中至少包括兩類具有偽標簽的音頻;
第一插值模塊,用于采用擾動數據對所述第一分離樣本集合進行插值,得到第一樣本集合;
第一分離模塊,用于采用無監督網絡對所述第一樣本集合進行分離,得到第二分離樣本集合;
第一確定模塊,用于確定所述第二分離樣本集合中第二分離樣本的損失;
第一調整模塊,用于采用所述第二分離樣本的損失,對所述無監督網絡的網絡參數進行調整,以使調整后的無監督網絡輸出的分離結果的損失滿足收斂條件。
第四方面,本申請實施例一種音頻分離裝置,所述裝置包括:
第二獲取模塊,用于獲取待分離音頻;
第一輸入模塊,用于采用已訓練的神經網絡對所述待分離音頻進行分離,得到分離結果;其中,所述神經網絡為基于上述第一方面所述的音頻分離網絡的訓練方法訓練得到的;
第一輸出模塊,用于輸出所述分離結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010086752.X/2.html,轉載請聲明來源鉆瓜專利網。





