[發明專利]一種多通道雙說話人分離方法及系統在審
| 申請號: | 202111134595.6 | 申請日: | 2021-09-27 |
| 公開(公告)號: | CN113870893A | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 張鵬遠;楊弋;陳航艇;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L25/27 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通道 說話 分離 方法 系統 | ||
本申請涉及一種多通道雙說話人分離方法及系統,其中所述方法包括:對混合語音音頻進行處理,得到每幀音頻的頻譜;根據所述每幀音頻和聲源位置估計網絡獲得估計的幀級別笛卡爾坐標和對應權重;根據所述每幀音頻的頻譜得到第一對數能量譜和第一正余弦通道間相位差;根據所述估計的幀級別笛卡爾坐標和對應權重,得到所述混合語音音頻中目標說話人的笛卡爾坐標估計;根據所述目標說話人的笛卡爾坐標得到第一角度特征;根據所述第一對數能量譜、第一正余弦通道間相位差、第一角度特征和說話人掩蔽估計網絡得到目標說話人和第一估計的說話人掩蔽;基于所述目標說話人、所述第一估計的說話人掩蔽和所述混合語音音頻,得到所述至少兩個說話人的分離語音。
技術領域
本申請實施例涉及語音分離領域,具體涉及一種多通道雙說話人分離方法及系統。
背景技術
語音分離的目標是將不同說話人從帶有混響和噪聲的混合語音音頻中分離出來,得到干凈的單獨說話人的語音。語音分離作為語音識別系統、語音日志等技術的前端,在教學環境、會議環境等多種環境下都有廣泛的應用。
深度聚類是一種傳統的語音分離方法。它通過訓練目標說話人在混合語音音頻上的理想二值掩蔽,得到目標說話人的分離語音。在訓練過程中,需要對每一個時頻單元進行向量化,進而將距離相近的時頻單元聚類在一起。但對于不同語音環境的影響,深度聚類的性能十分有限。
近年來,基于深度神經網絡的語音分離模型在語音分離領域迅速發展,性能已遠超傳統方法。但目前,大多數實驗研究的仍然是基于完全重疊的混合語音音頻的語音分離,對于會議等單個說話人占主導的語音環境有所忽略。研究顯示,在會議環境下,說話人重疊的比例一般不高于20%,因此,對于不同低說話人重疊比例的語音分離,魯棒性能仍有待提升。另一方面,對于不同說話人重疊比例的混合語音音頻,無法預先得知目標說話人在語音中的具體位置,神經網絡訓練的輸入只能是整個語音。這種情況下,如果使用平均池化,干擾說話人語音以及靜音幀會嚴重影響目標說話人位置信息的估計,進而使語音分離的性能降低。
發明內容
本申請實施例的目的在于對于低說話人重疊比例的混合語音音頻減小目標說話人位置估計產生的偏差,提升語音分離的魯棒性和分離性能。
第一方面,本申請實施例提供了一種多通道雙說話人分離方法包括:對混合語音音頻進行分幀、加窗和傅里葉變換處理,得到每幀音頻的頻譜;所述混合語音音頻為包括不同說話人重疊比例的混合語音音頻;根據所述每幀音頻和聲源位置估計網絡獲得估計的幀級別笛卡爾坐標和對應權重;根據所述每幀音頻的頻譜得到第一對數能量譜和第一正余弦通道間相位差;根據所述估計的幀級別笛卡爾坐標和對應權重,得到所述混合語音音頻中目標說話人的笛卡爾坐標估計,所述目標說話人的笛卡爾坐標估計指示加權的所述目標說話人的聲源位置估計;根據所述目標說話人的笛卡爾坐標得到第一角度特征;根據所述第一對數能量譜、第一正余弦通道間相位差、第一角度特征和說話人掩蔽估計網絡得到第一目標說話人掩蔽和第一干擾說話人掩蔽;基于所述第一目標說話人掩蔽和第一干擾說話人掩蔽和所述混合語音音頻,得到目標說話人語音和干擾說話人語音。
在一個可行的實施方式中,所述方法還包括:確定混合語音音頻的訓練集,基于所述混合語音音頻的訓練集確定訓練語音音頻及標簽;所述標簽包括聲源位置向量、第二目標說話人語音和第二干擾說話人語音;根據所述訓練語音音頻訓練聲源位置估計網絡;訓練說話人掩蔽估計網絡;聯合訓練聲源位置估計網絡和說話人掩蔽估計網絡,獲得訓練好的聲源位置估計網絡和說話人掩蔽估計網絡。
在一個可行的實施方式中,所述標簽包括聲源位置向量,根據所述訓練語音音頻訓練聲源位置估計網絡,包括:對所述訓練語音音頻進行分幀、加窗和傅里葉變換處理,得到所述訓練語音音頻的頻譜;所述訓練語音音頻的頻譜包括實部和虛部;以所述實部和虛部拼接后的數據為所述聲源位置估計網絡的輸入,以聲源位置向量估計為輸出,計算第一損失函數的值,所述第一損失函數為聲源位置的均方誤差;以所述第一損失函數的值在第一閾值以內為目標進行訓練,得到訓練好的所述聲源位置估計網絡和對應的權重向量;所述聲源位置估計網絡包括3層卷積模塊、2層雙向長短時記憶網絡和2層全連接層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111134595.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種手術縫合器驅動裝置
- 下一篇:一種彎芯液壓接頭自動組裝裝置





