[發(fā)明專利]一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法無效

申請?zhí)枺?/td>	200910235901.8	申請日：	2009-10-29
公開（公告）號：	CN102054480A	公開（公告）日：	2011-05-11
發(fā)明（設(shè)計）人：	茹婷婷;謝湘;匡鏡明	申請（專利權(quán)）人：	北京理工大學(xué)
主分類號：	G10L11/00	分類號：	G10L11/00
代理公司：	北京理工大學(xué)專利中心 11120	代理人：	張利萍;郭德忠
地址：	100081 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于分?jǐn)?shù) 傅立葉變換單聲道語音分離方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法，其特征在于包括以下步驟：

步驟一、對混疊語音信號進(jìn)行預(yù)處理，去除其靜音段信號，找出濁音幀；

步驟二、基于分?jǐn)?shù)階傅立葉變換，對經(jīng)步驟一處理后的濁音幀信號進(jìn)行基音檢測，分離出混疊語音的基音軌跡，也就是每個源信號的基頻，過程如下：

首先，根據(jù)每幀信號的連續(xù)性計算出FrFT的階數(shù)，然后，對濁音幀信號重新進(jìn)行FrFT變換，求得諧波積譜，再用動態(tài)規(guī)劃方法提取出其中一個人的基頻，即一個源信號的基頻；

當(dāng)搜出一個人的基頻之后，在諧波積譜中減去此人的基頻和諧波所對應(yīng)的譜成分，然后再使用一次動態(tài)規(guī)劃，可得到另一個人的基頻，即另一個源信號的基頻；

重復(fù)上述過程，即可得到每個源信號的基頻；

步驟三、根據(jù)經(jīng)步驟二得到的各條基頻，結(jié)合語音信號的正弦模型來合成語音，從而得到分離后的各個語音信號。

2.如權(quán)利要求1所述的一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法，其特征在于，所述步驟一中，當(dāng)去除靜音段信號后，對剩余混疊段信號進(jìn)行分幀處理的方法如下：

分幀時的幀長為20ms，幀移為10ms，此時，進(jìn)行清濁音判斷，并標(biāo)出濁音幀；混疊語音的清濁音判斷分為兩步：先判斷兩個混疊信號是否為雙清音，若是，判斷結(jié)束，若不是，再判斷兩混疊信號是一清一濁還是雙濁音；對于一清一濁，只對濁音幀進(jìn)行后續(xù)處理，不處理清音幀；對于雙清音信號，同樣不對其進(jìn)行處理。

3.如權(quán)利要求1或2所述的一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法，其特征在于，在步驟二中，當(dāng)計算FrFT的階數(shù)時，F(xiàn)rFT的階數(shù)α_i與前后兩幀的基頻用下式表示：

αi=1-|pi-pi-1pi+pi+1|---1.1]]>

其中，p_i-1，p_i，p_i+1分別為前一幀、當(dāng)前幀和下一幀的估計基頻。

4.如權(quán)利要求1或2所述的一種基于分?jǐn)?shù)階傅立葉變換的單聲道混疊語音分離方法，其特征在于，當(dāng)計算出FrFT的階數(shù)后，對經(jīng)步驟一處理后得到的濁音幀信號重新進(jìn)行FrFT變換，求得諧波積譜，再用動態(tài)規(guī)劃方法提取出其中一條基音軌跡，也就是基頻，其具體過程如下：

(1)對濁音幀信號x(n)，采用下式進(jìn)行N點的分?jǐn)?shù)階傅立葉變換，得到其幅度譜X(α，k)：

X(α，k)＝FrFT_N{x(n)}????1.2

將幅度譜X(α，k)變換到對數(shù)域，得到對數(shù)幅度譜SLog(α，k)：

SLog(α，k)＝log₁₀(|X(α，k)|²)????1.3

將一幀信號內(nèi)的所有諧波對數(shù)譜SLog(α，k)進(jìn)行求和，得到諧波積譜ρ(α，f)：

ρ(α,f)=1HΣh=1HSLog(α,hf)---1.4]]>

式1.4中，H為抽樣帶寬內(nèi)的諧波個數(shù)，h為諧波索引的值，f為每幀的基頻，α為每幀的階數(shù)；

(2)從諧波積譜ρ(α，f)中提取出可能含有基頻成分的M個候選峰值，M的取值要大于等于3；

動態(tài)規(guī)劃方法中需要設(shè)定一個指標(biāo)函數(shù)，對每條路徑均計算其指標(biāo)函數(shù)的值，最大值所對應(yīng)的路徑即為所要求的其中一條基頻；將指標(biāo)函數(shù)c(α，f)設(shè)定為：

c(α，f)＝k(f)*(P(α，f)-P(α，f/2))????1.5

式1.5中，f為每幀信號的估計基頻，k(f)為伴隨f遞減的函數(shù)；將(α_i，f_i)記為μ_i，路徑的評分函數(shù)S_i(μ_i)設(shè)定為：

Si(μi)=Si-1(μi-1*)+c(μi)---1.6]]>

μi-1*=argμi-1max[si-1(μi-1)+c(μi)]---1.7]]>

式1.6、1.7中，i表示幀號，是在選擇合適的階數(shù)一級得到第i-1幀基頻時的參數(shù)；由于正常人說話的基頻范圍為50Hz-400Hz，因此在此范圍內(nèi)搜索基頻，在每幀信號的兩個峰值點里均能夠找到選擇使評分函數(shù)S_i(μ_i)最大的f值，即認(rèn)為是這一幀信號中其中一個人的基頻；同理，當(dāng)搜索所有的信號之后，可以連成一條基音軌跡，從而得到其中一個人的基頻；

當(dāng)搜出一個人的基頻之后，在諧波積譜ρ(α，p)中減去此人的基頻和諧波所對應(yīng)的譜成分，然后再使用一次動態(tài)規(guī)劃方法，即可得到另一個人的基頻，從而分離出混疊語音的基音軌跡；

當(dāng)搜出一個人的基頻之后，在諧波積譜ρ(α，p)中減去此人的基頻和諧波所對應(yīng)的譜成分，然后再使用一次動態(tài)規(guī)劃方法，即可得到另一個人的基音軌跡，從而分離出混疊語音的基音軌跡；

求取諧波所對應(yīng)的譜成分的方法如下：

在諧波積譜中減去諧波所對應(yīng)的譜成分時，首先要知道諧波個數(shù)H_i，由此即能獲知究竟需要減去幾個譜成分；根據(jù)式1.8，可得到第i幀信號的諧波個數(shù)H_i，

Hi=fs/2fi---1.8]]>

式1.8中，f_i為第i幀的基頻，f_s為采樣率；則諧波頻率f′和基頻f的關(guān)系如下：

f′＝h*f，h＝2，3，4，...，H????1.9

式1.9中，H為諧波個數(shù)，得到了諧波頻率f′，即獲知了諧波所對應(yīng)的譜成分。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué)，未經(jīng)北京理工大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910235901.8/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種日光溫室外遮陽網(wǎng)的快速卷放機(jī)具及方法
下一篇：研磨方法

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L11-00 不限定于G10L 15/00至G10L 21/00單獨一組中的語音或音頻特征的測定或檢測
G10L11-02 .檢測有無語音信號
G10L11-04 .語音信號的音調(diào)測定
G10L11-06 .語音信號的濁音和清音之間的鑒別

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】