[發明專利]一種基于分數階傅立葉變換的單聲道混疊語音分離方法無效
| 申請號: | 200910235901.8 | 申請日: | 2009-10-29 |
| 公開(公告)號: | CN102054480A | 公開(公告)日: | 2011-05-11 |
| 發明(設計)人: | 茹婷婷;謝湘;匡鏡明 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G10L11/00 | 分類號: | G10L11/00 |
| 代理公司: | 北京理工大學專利中心 11120 | 代理人: | 張利萍;郭德忠 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分數 傅立葉 變換 單聲道 語音 分離 方法 | ||
技術領域
本發明涉及一種利用分數階傅立葉變換進行單聲道混疊語音分離的方法,屬于音頻信號處理技術領域。
背景技術
在語音和聽覺信號處理領域中,有一個重要的問題是如何從混疊語音信號中分離出人們感興趣的語音。混疊語音分離在語音通信、聲學目標檢測、聲音信號增強等方面都有重要的理論意義和使用價值,但由于構成混疊語音的各個源語音信號在時域和頻域上完全重疊,常用的語音增強方法難以將人們所感興趣的語音(稱為目標語音)從干擾語音中分離出來。
分數階傅立葉變換(Fractional?Fourier?Transform,FrFT)對于分析某些非平穩信號具有十分優良的特性,成為一種近年來引起信號處理界廣泛關注的工具。作為非平穩信號的語音,FrFT或者類似的變換在語音信號處理中的應用目前主要集中在以下幾個方面:語音分析,可以給出比傳統的傅立葉變換方法更高的時頻分辨率;基音估計,可以給出比傳統方法更精確的基音估計;語音增強;語音識別;以及說話人識別等。
在混疊語音分離方面的研究,主要分為聽覺場景分析(Auditory?Scene?Analysis,ASA)和盲源分離(Blind?Source?Separation,BSS)兩類。聽覺場景分析的研究有兩種方法:一種是從人的聽覺生理及心理特性出發,研究人在聲音識別過程中的規律,即聽覺場景分析;另一種是利用對人聽覺感知的研究成果建立模型,對模型進行數學分析并用計算機來實現它,這是計算聽覺場景分析(Computational?Auditory?Scene?Analysis,CASA)所要研究的內容。盲源分離是指在源信號、傳輸通道特性未知的情況下,僅由觀測信號和源信號的一些先驗知識(如概率密度)來估計出源信號各個分量的過程。盲源分離的獨立分量分析方法首先是由P.Comon提出,它是基于神經網絡和統計學的基礎發展起來的一種技術,是一個十分活躍的前沿領域。
現有的混疊語音分離方法主要存在以下不足:
(1)聽覺場景分析和計算聽覺場景分析的研究還處于起步階段。特別是在計算聽覺場景分析研究中,所建立的模型只能用于驗證聽覺場景分析研究中的一些不夠明了的理論,即人腦處理聽覺信號的機制。
針對盲源分離方法的研究非常活躍,但對這個問題還沒有得到很好的解決,其涉及到多通道卷積混疊系統和盲反卷積系統的穩定性及相位不確定性問題,尤其是當源的數目未知時盲反卷積問題以及帶噪聲的情況。
(2)混疊語音的基頻分離提取是聽覺場景分析中實現混疊語音分離的關鍵,但現有的混疊語音基頻分離提取方法只考慮濁音與濁音的混疊,不考慮清音與濁音的混疊。這是因為在語音信號的清音幀中,激勵信號是無周期性的,因此估計清音幀的基頻并沒有實際意義。不僅如此,清音幀估計出來的基頻通常隨機性強,不具有連續性,而從混疊語音中分離提取出的基頻是以基頻的連續性來判斷其歸屬,所以,清音幀估計出的基頻會影響基音歸屬判斷,進而影響基頻的平滑處理效果。
發明內容
本發明的目的是為克服現有技術的缺陷,解決如何從單聲道混疊語音信號中分離出目標語音的問題,提出一種新的基于分數階傅立葉變換的單聲道混疊語音分離方法。
本發明所采用的技術方案如下:
一種基于分數階傅立葉變換的單聲道混疊語音分離方法,包括以下步驟:
步驟一、對混疊語音信號進行預處理,去除其靜音段信號,找出濁音幀。
首先,對混疊語音信號進行端點檢測,去除其靜音段信號,把剩余的混疊段信號作為處理對象。
然后,對剩余混疊段信號進行分幀處理,并進行清濁音判斷,標出濁音幀。
步驟二、基于分數階傅立葉變換,對經步驟一處理后的濁音幀信號進行基音檢測,分離出混疊語音的基音軌跡,也就是每個源信號的基頻,過程如下:
首先,根據每幀信號的連續性計算出FrFT的階數。然后,對濁音幀信號重新進行FrFT變換,求得諧波積譜,再用動態規劃方法提取出其中一個人的基頻,即一個源信號的基頻。
當搜出一個人的基頻之后,在諧波積譜中減去此人的基頻和諧波所對應的譜成分,然后再使用一次動態規劃,即可得到另一個人的基頻,,即另一個源信號的基頻;
重復上述過程,即可得到每個源信號的基頻。
步驟三、由于語音信號能夠用一組正弦信號的疊加表示,因此,根據經步驟二得到的各條基頻,結合語音信號的正弦模型來合成語音,從而得到分離后的各個語音信號。
本發明的積極效果和優點在于:
1.使用本發明方法,可有效的分離并提取出多個混疊語音的基頻,從而實現混疊語音的有效分離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910235901.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種日光溫室外遮陽網的快速卷放機具及方法
- 下一篇:研磨方法





