[發(fā)明專利]一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法無效
| 申請?zhí)枺?/td> | 200910235901.8 | 申請日: | 2009-10-29 |
| 公開(公告)號: | CN102054480A | 公開(公告)日: | 2011-05-11 |
| 發(fā)明(設(shè)計)人: | 茹婷婷;謝湘;匡鏡明 | 申請(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號: | G10L11/00 | 分類號: | G10L11/00 |
| 代理公司: | 北京理工大學(xué)專利中心 11120 | 代理人: | 張利萍;郭德忠 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分?jǐn)?shù) 傅立葉 變換 單聲道 語音 分離 方法 | ||
1.一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法,其特征在于包括以下步驟:
步驟一、對混疊語音信號進(jìn)行預(yù)處理,去除其靜音段信號,找出濁音幀;
步驟二、基于分?jǐn)?shù)階傅立葉變換,對經(jīng)步驟一處理后的濁音幀信號進(jìn)行基音檢測,分離出混疊語音的基音軌跡,也就是每個源信號的基頻,過程如下:
首先,根據(jù)每幀信號的連續(xù)性計算出FrFT的階數(shù),然后,對濁音幀信號重新進(jìn)行FrFT變換,求得諧波積譜,再用動態(tài)規(guī)劃方法提取出其中一個人的基頻,即一個源信號的基頻;
當(dāng)搜出一個人的基頻之后,在諧波積譜中減去此人的基頻和諧波所對應(yīng)的譜成分,然后再使用一次動態(tài)規(guī)劃,可得到另一個人的基頻,即另一個源信號的基頻;
重復(fù)上述過程,即可得到每個源信號的基頻;
步驟三、根據(jù)經(jīng)步驟二得到的各條基頻,結(jié)合語音信號的正弦模型來合成語音,從而得到分離后的各個語音信號。
2.如權(quán)利要求1所述的一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法,其特征在于,所述步驟一中,當(dāng)去除靜音段信號后,對剩余混疊段信號進(jìn)行分幀處理的方法如下:
分幀時的幀長為20ms,幀移為10ms,此時,進(jìn)行清濁音判斷,并標(biāo)出濁音幀;混疊語音的清濁音判斷分為兩步:先判斷兩個混疊信號是否為雙清音,若是,判斷結(jié)束,若不是,再判斷兩混疊信號是一清一濁還是雙濁音;對于一清一濁,只對濁音幀進(jìn)行后續(xù)處理,不處理清音幀;對于雙清音信號,同樣不對其進(jìn)行處理。
3.如權(quán)利要求1或2所述的一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法,其特征在于,在步驟二中,當(dāng)計算FrFT的階數(shù)時,F(xiàn)rFT的階數(shù)αi與前后兩幀的基頻用下式表示:
其中,pi-1,pi,pi+1分別為前一幀、當(dāng)前幀和下一幀的估計基頻。
4.如權(quán)利要求1或2所述的一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法,其特征在于,當(dāng)計算出FrFT的階數(shù)后,對經(jīng)步驟一處理后得到的濁音幀信號重新進(jìn)行FrFT變換,求得諧波積譜,再用動態(tài)規(guī)劃方法提取出其中一條基音軌跡,也就是基頻,其具體過程如下:
(1)對濁音幀信號x(n),采用下式進(jìn)行N點的分?jǐn)?shù)階傅立葉變換,得到其幅度譜X(α,k):
X(α,k)=FrFTN{x(n)}????1.2
將幅度譜X(α,k)變換到對數(shù)域,得到對數(shù)幅度譜SLog(α,k):
SLog(α,k)=log10(|X(α,k)|2)????1.3
將一幀信號內(nèi)的所有諧波對數(shù)譜SLog(α,k)進(jìn)行求和,得到諧波積譜ρ(α,f):
式1.4中,H為抽樣帶寬內(nèi)的諧波個數(shù),h為諧波索引的值,f為每幀的基頻,α為每幀的階數(shù);
(2)從諧波積譜ρ(α,f)中提取出可能含有基頻成分的M個候選峰值,M的取值要大于等于3;
動態(tài)規(guī)劃方法中需要設(shè)定一個指標(biāo)函數(shù),對每條路徑均計算其指標(biāo)函數(shù)的值,最大值所對應(yīng)的路徑即為所要求的其中一條基頻;將指標(biāo)函數(shù)c(α,f)設(shè)定為:
c(α,f)=k(f)*(P(α,f)-P(α,f/2))????1.5
式1.5中,f為每幀信號的估計基頻,k(f)為伴隨f遞減的函數(shù);將(αi,fi)記為μi,路徑的評分函數(shù)Si(μi)設(shè)定為:
式1.6、1.7中,i表示幀號,是在選擇合適的階數(shù)一級得到第i-1幀基頻時的參數(shù);由于正常人說話的基頻范圍為50Hz-400Hz,因此在此范圍內(nèi)搜索基頻,在每幀信號的兩個峰值點里均能夠找到選擇使評分函數(shù)Si(μi)最大的f值,即認(rèn)為是這一幀信號中其中一個人的基頻;同理,當(dāng)搜索所有的信號之后,可以連成一條基音軌跡,從而得到其中一個人的基頻;
當(dāng)搜出一個人的基頻之后,在諧波積譜ρ(α,p)中減去此人的基頻和諧波所對應(yīng)的譜成分,然后再使用一次動態(tài)規(guī)劃方法,即可得到另一個人的基頻,從而分離出混疊語音的基音軌跡;
當(dāng)搜出一個人的基頻之后,在諧波積譜ρ(α,p)中減去此人的基頻和諧波所對應(yīng)的譜成分,然后再使用一次動態(tài)規(guī)劃方法,即可得到另一個人的基音軌跡,從而分離出混疊語音的基音軌跡;
求取諧波所對應(yīng)的譜成分的方法如下:
在諧波積譜中減去諧波所對應(yīng)的譜成分時,首先要知道諧波個數(shù)Hi,由此即能獲知究竟需要減去幾個譜成分;根據(jù)式1.8,可得到第i幀信號的諧波個數(shù)Hi,
式1.8中,fi為第i幀的基頻,fs為采樣率;則諧波頻率f′和基頻f的關(guān)系如下:
f′=h*f,h=2,3,4,...,H????1.9
式1.9中,H為諧波個數(shù),得到了諧波頻率f′,即獲知了諧波所對應(yīng)的譜成分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910235901.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





