[發(fā)明專利]聲音分離的增強方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110591841.4 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113241091B | 公開(公告)日: | 2022-07-12 |
| 發(fā)明(設計)人: | 吳夢玥;李光偉;徐薛楠;丁翰林;俞凱 | 申請(專利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0208;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京商專永信知識產(chǎn)權(quán)代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聲音 分離 增強 方法 系統(tǒng) | ||
本發(fā)明實施例提供一種聲音分離的增強方法。該方法包括:從給定數(shù)量的各類別的弱標簽音頻數(shù)據(jù)集中,利用第一限制條件,確定各類別的第一有效音頻片段;利用各類別的第一有效片段,訓練通用聲音分離系統(tǒng);針對選定的類別的弱標簽音頻數(shù)據(jù)集,利用第二限制條件,確定選定的類別的第二有效音頻片段;利選定的類別的第二有效片段以及其他類別的第一有效片段,訓練類別適應增強系統(tǒng)。本發(fā)明實施例還提供一種聲音分離的增強系統(tǒng)。本發(fā)明實施例在對通用聲音分離系統(tǒng)進行訓練后,采用分段重新選擇的方法將系統(tǒng)學習所有指定的特定類別的增強系統(tǒng)。進一步消除對應類別中不必要的聲音,提升了模型的魯棒性,并且擺脫了對強標簽數(shù)據(jù)的依賴。
技術(shù)領(lǐng)域
本發(fā)明涉及智能語音領(lǐng)域,尤其涉及一種聲音分離的增強方法及系統(tǒng)。
背景技術(shù)
聲音增強研究目前主要集中在語音上,語音增強的目的是過濾或抑制不想要的成分,如抑制給定音頻信號中的背景噪聲。這么做是因為傳統(tǒng)的增強訓練目標需要先驗的信號質(zhì)量知識(即干凈的信號),以便在干凈的語音情況下工作。
為了實現(xiàn)聲音分離獲得干凈的語音,通常會使用傳統(tǒng)濾波器,也是比較廣泛的方法,通常有LMS(Least Mean Square,最小均方)自適應濾波、維爾納濾波、基本譜減法等純數(shù)學方法,特點是計算方便,且使用無需額外的數(shù)據(jù),并且使用成本較低。或者使用監(jiān)督的神經(jīng)網(wǎng)絡方法,通常是采用干凈的人聲或其他目標聲音與人造的雜音混合,輸入神經(jīng)網(wǎng)絡,訓練得到干凈的目標聲音。
在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)相關(guān)技術(shù)中至少存在如下問題:傳統(tǒng)濾波器雖然計算速度快,且無需額外數(shù)據(jù),但這輕量級的方法通常只能應對比較普通的場景,并且大部分時間效果比較一般,不夠顯著。傳統(tǒng)的使用監(jiān)督的神經(jīng)網(wǎng)絡方法通常較為依賴干凈的強標簽數(shù)據(jù),并且魯棒性不足,難以應對大自然中真實存在的不同類型噪聲。
發(fā)明內(nèi)容
為了至少解決濾波器效果不佳、不夠顯著,監(jiān)督的神經(jīng)網(wǎng)絡方法依賴干凈的強標簽數(shù)據(jù),難以應對真實存在的不同類型噪聲的問題。
第一方面,本發(fā)明實施例提供一種聲音分離的增強方法,包括:
從給定數(shù)量的各類別的弱標簽音頻數(shù)據(jù)集中,利用第一限制條件,確定各類別的第一有效音頻片段;
利用所述各類別的第一有效片段,訓練通用聲音分離系統(tǒng);
針對選定的類別的弱標簽音頻數(shù)據(jù)集,利用第二限制條件,確定所述選定的類別的第二有效音頻片段,其中,所述第二限制條件高于所述第一限制條件;
利所述選定的類別的所述第二有效片段以及其他類別的第一有效片段,訓練類別適應增強系統(tǒng);
利用所述類別適應增強系統(tǒng)對所述選定的類別進行聲音分離。
第二方面,本發(fā)明實施例提供一種聲音分離的增強系統(tǒng),包括:
第一有效音頻片段確定程序模塊,用于從給定數(shù)量的各類別的弱標簽音頻數(shù)據(jù)集中,利用第一限制條件,確定各類別的第一有效音頻片段;
通用聲音分離系統(tǒng)訓練程序模塊,用于利用所述各類別的第一有效片段,訓練通用聲音分離系統(tǒng);
第二有效音頻片段確定程序模塊,用于針對選定的類別的弱標簽音頻數(shù)據(jù)集,利用第二限制條件,確定所述選定的類別的第二有效音頻片段,其中,所述第二限制條件高于所述第一限制條件;
類別適應增強系統(tǒng)訓練程序模塊,用于利所述選定的類別的所述第二有效片段以及其他類別的第一有效片段,訓練類別適應增強系統(tǒng);
聲音分離程序模塊,用于利用所述類別適應增強系統(tǒng)對所述選定的類別進行聲音分離。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110591841.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





