[發明專利]一種分頻段切換CMN非線性函數的頻域語音盲分離方法無效
| 申請號: | 201210022621.0 | 申請日: | 2012-02-01 |
| 公開(公告)號: | CN102543098A | 公開(公告)日: | 2012-07-04 |
| 發明(設計)人: | 林秋華 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉;關慧貞 |
| 地址: | 116024*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 頻段 切換 cmn 非線性 函數 語音 分離 方法 | ||
技術領域
本發明涉及一種語音增強方法,特別是涉及一種頻域語音盲分離方法。
背景技術
語音識別和內容理解是計算機感知與決策、無人駕駛等國家關鍵技術中的重要功能。然而,由于自然環境下的語音常常受到環境噪聲、多人多方對話等干擾,其信噪比和可懂度大為降低,嚴重時可造成語音識別和內容理解失敗。所以,消除各種語音干擾(即語音增強)是語音信號處理的首要環節。因為語音和噪聲特性復雜多變,人們一直在探索穩定、有效的語音增強方法,但至今仍面臨巨大挑戰。
傳統的語音增強方法包括自適應濾波、譜減法、波束形成等。這些方法通常需要準確的先驗信息(如噪聲特性),有時因難于精確獲得這些信息而導致性能下降。為此,對先驗信息要求很低的盲源分離(簡稱盲分離)方法近年來已成為語音增強的研究熱點。盲分離方法幾乎不需要語音信號及其混合方面的任何信息,即能從多路語音混合信號(來自麥克風)中分離出各個語音信號,實現語音增強功能。現有研究結果表明,在強混響環境中,語音和麥克風之間的響應是一個高階FIR濾波器。因此,實際語音混合信號需要用卷積混合模型進行描述,語音增強問題也就變成了盲分離解卷積問題。
目前,盲分離解卷積有時域和頻域兩種方法。顧名思義,時域方法在時域內學習FIR混合濾波器的逆,當濾波器階數較低時分離性能較好。但在實際應用中,混合濾波器的階數較高(如幾千階),逆濾波器的階數也就很高,眾多的學習參數致使時域方法計算量繁重、收斂困難。相比之下,頻域方法通過短時傅里葉變換(short?time?Fourier?transform,STFT)將時域卷積混合信號轉化為各個頻點的復數瞬時混合信號,這樣只需對各頻點語音混合信號進行瞬時盲分離,就可以實現解卷積。因此,頻域方法具有運算量小、收斂速度快等優勢,已成為語音增強的熱點方法之一,也是本發明所采用的處理方法。
頻域語音盲分離的一種常用做法包括三步:(1)在各頻點對復數語音混合信號進行盲分離,(2)在各頻點對各個語音分離信號進行排序,(3)對排序后各語音信號進行傅里葉反變換(inverse?discrete?Fourier?transform,IDFT)得到時域語音分離信號。其中,第一步的復數語音混合信號盲分離最為關鍵,其性能好壞直接決定后續兩步的成敗。如果分離效果好,第二步的排序易于進行且正確率高,第三步獲取的分離語音信噪比就高;如果分離不好,將造成排序錯誤和分離失敗。目前,實現第一步頻域語音分離的復數盲分離算法主要有,適于分離環形(circular)信號的CfastICA(complex?fastICA),適于分離非環形(noncircular)信號的SUT(strongly?uncorrelating?transform),適于分離環形和非環形混合信號的JADE(joint?approximate?diagonalization?of?eigenmatrices)、KM(kurtosis?maximization)、CMN(complex?maximization?of?non-Gaussianity)、ACMN(adaptable?CMN)等算法。非環形度測量結果表明,各頻點語音信號為環形和非環形混合信號,因此,JADE、KM、CMN、ACMN等算法在分離語音信號時性能明顯優于CfastICA和SUT。
然而,JADE、KM、CMN、ACMN等算法并非專門為分離頻域語音信號而開發,也就是說,這些算法并未考慮語音的各種特性及其變化,所以尚不能直接提供令人滿意的語音分離結果。例如,ACMN可針對源信號分布自適應調整非線性函數與之匹配,但僅限于對稱分布源信號,而大多數語音為非對稱分布信號,所以ACMN在分離語音時性能并不理想。同樣,JADE和KM因為目標函數與語音特性不匹配,語音分離性能也不夠好。最具潛力的分離算法當屬CMN,其非線性函數較多,有的適合對稱分布信號,有的適合非對稱分布信號,所以可提供與語音分布相匹配的非線性函數,分離性能高于ACMN、JADE和KM等算法。但是,CMN算法存在的最大問題是,采用了單一非線性函數,不能適應不同語音在高斯性和對稱性方面發生的變化,致使其在分離頻域語音時性能存在較大波動。具體表現為,單一非線性函數CMN算法對有些語音混合信號的分離效果較好,但對另外一些語音混合信號的分離效果卻較差。而且,即使在分離效果較好的情況下,單一非線性函數也不能適應語音信號在全頻段發生的特性改變,致使分離性能上限受到限制。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210022621.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:含有替米沙坦和氫氯噻嗪的復方片劑
- 下一篇:一種萬向轉輪





