[發明專利]一種針對多說話人的單通道語音分離方法及系統在審
| 申請號: | 202110173700.0 | 申請日: | 2021-02-06 |
| 公開(公告)號: | CN113053407A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 史慧宇;歐陽鵬 | 申請(專利權)人: | 南京蘊智科技有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0308;G10L25/30 |
| 代理公司: | 北京索睿邦知識產權代理有限公司 11679 | 代理人: | 李根 |
| 地址: | 211100 江蘇省南京市江寧區麒麟*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 說話 通道 語音 分離 方法 系統 | ||
本發明提供針對多說話人的單通道語音分離方法,其包括:構建語音分離深度神經網絡;獲取第一編碼、第二編碼和第三編碼;通過解卷積層解碼第一編碼及第三編碼獲取多個輸出通道的語音分離信號;對語音分離深度神經網絡有監督的訓練,以獲得訓練后的語音分離深度神經網絡;將待測試語音樣本輸入到訓練后的語音分離深度神經網絡中,獲取待測試語音樣本中多個語音分離信號。本發明通過分離網絡的音素附加輸入和注意力機制可增加網絡對語音信號分離的依據,相比原有方法可有效提高語音輸出的準確性,降低語音的失真率,提高可懂度。同時,本發明還提供了針對多說話人的單通道語音分離系統。
技術領域
本發明涉及語音信號處理領域,本發明具體涉及一種針對多說話人的單通道語音分離方法及系統。
背景技術
隨著高端智能設備如智能耳機、助聽器、會議記錄器等快速發展,語音交互作為人機互動最便捷的方式得到越來越廣泛的研究。在語音信號處理領域,語音分離技術作為連接前端和后端的紐帶,不僅可以過濾掉噪聲等因素的干擾,還可以提取語音識別等技術需要的關鍵信息,因此起到至關重要的作用。但目前的算法中,當待分離的語音中含有較大的噪聲或伴隨混響時,分離的效果大打折扣。語音分離算法中研究和應用最廣泛的是單通道語音分離技術。單通道語音分離技術主要利用單個麥克風采集的信號,借助目標語音和干擾信號之間的時頻域聲學和統計特性的差異進行建模,相比多通道語音分離任務,硬件要求和成本較低,運算量較小,但是難度更高。
近些年神經網絡和深度學習技術得到快速發展,語音分離算法已采用深度學習的計算模式。基于深度學習的語音分離方法的基本思想是:建立語音分離模型,從混合語音中提取特征參數,然后通過網絡訓練尋找特征參數與各個目標語音信號的特征參數之間的映射關系,之后任意輸入的混合信號都可以通過訓練后的模型輸出各個目標語音的信號,從而實現語音分離。早些年研究人員多在頻域上研究分離算法,最近,時域的端到端分離算法由于可避免頻域中的相位估算誤差問題,得到廣泛研究。目前時域語音分離算法主要包含:Cov-TasNet、BLSTM-TasNet和FurcaNeXt等。這些算法多應用在純語音混合的數據中,但當數據中混合了噪聲和混響等干擾時,效果都會在一定程度上下降。分析其中一個原因是,這些算法多是僅直接將混合信號輸入到網絡模型中進行訓練,這樣訓練出的網絡對提高分離準確度的幫助有限。
發明內容
本發明的目的一方面提供了針對多說話人的單通道語音分離方法,其通過分離網絡的音素附加輸入和注意力機制可增加網絡對語音信號分離的依據,相比原有方法可有效提高語音輸出的準確性,降低語音的失真率,提高可懂度。
本發明的目的另一方面提供了針對多說話人的單通道語音分離系統,其通過分離網絡的音素附加輸入和注意力機制可增加網絡對語音信號分離的依據,相比原有系統可有效提高語音輸出的準確性,降低語音的失真率,提高可懂度。
本發明的第一個方面,提供了一種針對多說話人的單通道語音分離方法,其包括:
步驟S101,構建語音分離深度神經網絡。語音分離深度神經網絡包括:輸入層、輸出層及多個輸出通道。輸出通道數量對應混合音頻中的說話人數。語音分離網絡包括:混合音頻信號編碼器、音素信息編碼器、注意力機制模塊和綜合解碼器。
步驟S102,將混合音頻樣本信號輸入到混合音頻信號編碼器的輸入端,經兩層延時卷積網絡編碼混合音頻樣本信號,獲取第一編碼。
將每個目標說話人語音音素串聯輸入到音素編碼器的輸入端,經兩層延時卷積網絡編碼每個目標說話人語音音素,提取高維特征獲取第二編碼。
注意力機制模塊通過內部的打分機制獲取第一編碼和第二編碼的評分,通過第一編碼和第二編碼的評分獲取注意力權重值。通過注意力權重值獲取加權后的第一編碼。通過加權后的第一編碼和第二編碼獲取第三編碼。
綜合解碼器,通過解卷積層解碼第一編碼及第三編碼獲取多個輸出通道的語音分離信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京蘊智科技有限公司,未經南京蘊智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110173700.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種復合酶及其應用
- 下一篇:一種雞排雞柳裹粉裝置





