[發(fā)明專利]一種基于子帶譜熵的語音增強方法有效
| 申請?zhí)枺?/td> | 201811031344.3 | 申請日: | 2018-09-05 |
| 公開(公告)號: | CN109102823B | 公開(公告)日: | 2022-12-06 |
| 發(fā)明(設(shè)計)人: | 呂勇 | 申請(專利權(quán))人: | 河海大學(xué) |
| 主分類號: | G10L21/0232 | 分類號: | G10L21/0232;G10L21/0264;G10L25/84 |
| 代理公司: | 南京蘇高專利商標事務(wù)所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 子帶譜熵 語音 增強 方法 | ||
本發(fā)明公開了一種基于子帶譜熵的語音增強方法,首先將含噪語音的幅度譜劃分成若干個子帶,計算每個子帶的譜熵;然后,根據(jù)子帶譜熵,判斷該子帶是否存在語音;最后,對無音子帶,更新該子帶上所有數(shù)字頻率處的噪聲參數(shù);對有音子帶,用譜減法對含噪語音的幅度譜進行增強。本發(fā)明可以對每一幀信號的每個子帶的語音存在性進行判斷,增強噪聲估計算法對非平穩(wěn)環(huán)境的實時跟蹤能力。
技術(shù)領(lǐng)域
本發(fā)明屬于語音信號處理技術(shù)領(lǐng)域,具體涉及到根據(jù)含噪語音每個子帶的譜熵估計背景噪聲的均值,對含噪語音進行譜減,恢復(fù)純凈語音的語音增強方法。
背景技術(shù)
在語音的傳輸過程中,不可避免地會受到環(huán)境噪聲的干擾。含噪語音中混雜的噪聲不僅使聽者產(chǎn)生不舒服的感覺,而且會給語音編碼、語音識別等應(yīng)用系統(tǒng)帶來不利影響。因此,在實際應(yīng)用中,就需要采用各種語音增強方法抑制噪聲干擾,增強有用語音信號,增加語音的可懂度。
在傳統(tǒng)的語音增強算法中,需要對含噪語音進行端點檢測,將其劃分為有音段和靜音段,即將每一幀信號判斷為語音幀和非語音幀。在靜音段,估計噪聲頻譜的均值;在有音段,利用估得的噪聲均值,對每個語音幀的幅度譜進行增強,減小噪聲干擾的影響。然而,實際環(huán)境中的背景噪聲往往是非平穩(wěn)的,在有音段,噪聲的類型或強度也有可能發(fā)生變化。因此,僅僅在靜音段估計噪聲,無法實時跟蹤非平穩(wěn)噪聲的變化,這會給語音增強帶來不利影響。
發(fā)明內(nèi)容
發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種基于子帶譜熵的語音增強方法。
技術(shù)方案:一種基于子帶譜熵的語音增強方法,首先將含噪語音的幅度譜劃分成若干個子帶,計算每個子帶的譜熵;然后,根據(jù)子帶譜熵,判斷該子帶是否存在語音;最后,對無音子帶,更新該子帶上所有數(shù)字頻率處的噪聲參數(shù);對有音子帶,用譜減法對含噪語音的幅度譜進行增強。
本發(fā)明的具體步驟如下:
(1)對含噪語音進行預(yù)處理,包括加窗、分幀和快速傅里葉變換(FFT:FastFourier Transform),并將每幀信號的頻譜分為幅度部分和相位部分;
(2)將含噪語音的幅度譜劃分為若干個子帶,并計算每個子帶上的譜熵;
(3)根據(jù)每個子帶上的譜熵,判斷該子帶是否存在語音;
(4)若某子帶上不存在語音,則對該子帶上的每個數(shù)字頻率,用平滑濾波方式更新其噪聲均值,并將其幅度譜設(shè)置為噪聲均值的0.01倍;
(5)若某子帶上存在語音,則對該子帶上的每個數(shù)字頻率,用加權(quán)譜減法減小噪聲的影響,增強含噪語音的幅度譜,提高含噪語音的信噪比;
(6)對增強后的語音信號進行IFFT(Inverse FFT)運算,得到時域信號;
(7)對時域幀信號進行重疊相加,得到增強后的連續(xù)語音。
本發(fā)明采用上述技術(shù)方案,具有以下有益效果:
本發(fā)明可以對每一幀信號的每個子帶的語音存在性進行判斷,增強噪聲估計算法對非平穩(wěn)環(huán)境的實時跟蹤能力。
附圖說明
圖1為本發(fā)明實施例的基于子帶譜熵的語音增強方法的總體框架圖。
具體實施方式
下面結(jié)合具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
如圖1所示,基于子帶譜熵的語音增強方法主要包括語音預(yù)處理、子帶劃分、子帶譜熵計算、噪聲估計、幅度增強、IFFT和重疊相加部分。
1、語音預(yù)處理
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811031344.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





