[發(fā)明專利]一種說話人數(shù)未知的多通道語音分離方法有效
| 申請?zhí)枺?/td> | 202010796279.4 | 申請日: | 2020-08-10 |
| 公開(公告)號: | CN112116920B | 公開(公告)日: | 2022-08-05 |
| 發(fā)明(設(shè)計)人: | 曲天書;吳璽宏;彭超 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0308;G10L21/0232;G10L21/0224;G10L21/0216;G10L25/30;H04R3/00 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 說話 人數(shù) 未知 通道 語音 分離 方法 | ||
本發(fā)明公開了一種說話人數(shù)未知的多通道語音分離方法。本方法步驟包括:1)采集目標空間中的多通道音頻信號,并提取該多通道音頻信號的時頻特征和空間特征;2)利用所述時頻特征和所述空間特征估計出該目標空間中說話人所在方向的數(shù)目;3)利用所述時頻特征、空間特征及估計出的方向數(shù)目,獲得該目標空間中各說話人所在目標方向;4)利用估計出的各說話人所在目標方向設(shè)計方向特征,并結(jié)合時頻特征和空間特征從該多通道音頻信號中提取出每一目標方向上的語音信號;5)從每一目標方向上的語音信號中迭代分離出對應(yīng)目標方向上可能存在的多個說話人語音。本發(fā)明既規(guī)避了語音迭代分離誤差隨迭代次數(shù)增大而增大的問題,又提高了語音分離的性能。
技術(shù)領(lǐng)域
本發(fā)明屬于多說話人語音分離領(lǐng)域,涉及多聲源數(shù)目估計、多聲源空間定向、波束形成 和語音迭代分離,具體涉及一種說話人數(shù)未知的多通道語音分離方法。
背景技術(shù)
語音作為人與人之間交流的重要方式,是信息傳遞的一種重要載體。隨著社會信息化的 加速,語音也逐漸成為了人與計算機、智能設(shè)備等之間的重要交互方式。然而實際生活中, 語音在從聲源到麥克風(fēng)的傳播中常常會受到環(huán)境噪聲、其他說話人的聲音及封閉環(huán)境中混響 等干擾的影響,使得接收到的語音的可懂度嚴重下降。為了提高目標語音的可懂度和感知質(zhì) 量,在一些語音信號處理的前端技術(shù)中需要將這些干擾減弱。
很多年以來,很多方法在語音分離方面都進行了嘗試,并取得了一些效果。比如典型的 單通道語音分離方法有計算聽覺場景分析、高斯混合模型-隱馬爾可夫模型、非負矩陣分解和 基于深度學(xué)習(xí)的方法;典型的多通道分離方法如獨立成分分析、波束形成和基于深度學(xué)習(xí)的 方法。盡管多說話人語音分離在已知說話人數(shù)的情況下取得了不錯的分離效果,但假設(shè)性太 強,在實際生活中很難廣泛應(yīng)用。因為這些語音分離方法都具有一個主要問題,即必須已知 說話人的個數(shù)。同時,對于波束形成的方法,也并不能很好的處理一個方向上有多個說話人 的情況。
目前已經(jīng)有一些方法被提出來去解決這個問題,典型的有基于輔助信息的方法、基于固 定數(shù)目輸出的方法和基于迭代分離的方法。
基于輔助信息的方法就是在做多說話人語音分離的同時,加入說話人的一些指導(dǎo)信息, 如引入視覺信息、空間方位信息等來指導(dǎo)語音分離。該方法的優(yōu)點是能夠在某些特定說話人 信息的指導(dǎo)下完成分離,但是也存在很多不足。對于說話人嵌入輔助分離的方法,說話人嵌 入通常是在句子級別進行估計的,需要足夠長的上下文,這使得其很難應(yīng)用到在線或者因果 系統(tǒng)中,而且不準確的嵌入估計會嚴重影響到分離的性能。對于視覺信息輔助分離的方法, 在一些環(huán)境比如黑暗的條件下,輔助的視覺信息將很難獲得。
基于固定數(shù)目輸出的方法以置換不變訓(xùn)練網(wǎng)絡(luò)(Permutation InvariantTraining,PIT)為基 礎(chǔ),訓(xùn)練一個最大說話人數(shù)輸出的網(wǎng)絡(luò),有多少個說話人就有多少路輸出。如果實際的混合 語音中的說話人數(shù)少于最大說話人數(shù),那么網(wǎng)絡(luò)的輸出除了是估計的說話人的掩模外,還會 有額外的噪聲信號或者靜音輸出。而對于無效輸出的檢測可以利用能量閾值的方法進行檢測。 這一類方法優(yōu)點是相比于另外兩種方法只需要訓(xùn)練一個模型,算法復(fù)雜度較低高效。但是該 類方法仍然需要最大說話人數(shù)這一個先驗信息,而且并不能使用與能量無關(guān)的指標作為訓(xùn)練 目標,如Scale-Invariant Signal-to-DistortionRatio(SI-SDR),而這一類指標已經(jīng)有論文證明效 果會比使用均方誤差的效果好。
基于迭代分離的方法以置換不變訓(xùn)練網(wǎng)絡(luò)為基礎(chǔ),訓(xùn)練一個兩路輸出的網(wǎng)絡(luò),一路是目 標語音信號,另一路則是除去這個說話人外的殘差語音信號,也就是說網(wǎng)絡(luò)每次迭代只從殘 差語音信號中分離出一個最容易分離的說話人語音。迭代停止的條件是殘差語音信號是噪聲 信號或者靜音,可以利用能量閾值或者訓(xùn)練一個二分類網(wǎng)絡(luò)判斷殘差語音信號是否是噪聲。 該類方法的優(yōu)點是前幾次的迭代分離出的目標說話人語音往往會好于固定數(shù)目輸出方法的平 均結(jié)果,而且能夠使用能量無關(guān)的指標作為分離模型的訓(xùn)練目標,使得分離效果更好。但最 大的缺點是誤差會累積,隨著迭代次數(shù)的增加每次迭代分離出的目標說話人語音的效果會越 來越差。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010796279.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





