[發(fā)明專利]一種基于DNN噪聲分類的語音增強(qiáng)方法在審
| 申請?zhí)枺?/td> | 201811587392.0 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109559755A | 公開(公告)日: | 2019-04-02 |
| 發(fā)明(設(shè)計)人: | 高天寒;陳爽 | 申請(專利權(quán))人: | 沈陽品尚科技有限公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L25/30;G10L25/24;G10L15/16;G10L15/06;G10L25/18 |
| 代理公司: | 沈陽東大知識產(chǎn)權(quán)代理有限公司 21109 | 代理人: | 劉曉嵐 |
| 地址: | 110006 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 梅爾 語音增強(qiáng) 噪聲分類 濾波能量 特征向量 語音信號 濾波 噪聲 快速傅里葉變換 離散余弦變換 神經(jīng)網(wǎng)絡(luò)模型 語音識別技術(shù) 濾波器 預(yù)處理 倒譜參數(shù) 非語音段 客觀測試 濾波器組 頻率響應(yīng) 頻譜能量 神經(jīng)網(wǎng)絡(luò) 噪聲信號 分類 頻譜 譜線 向量 語音 主觀 | ||
本發(fā)明提供一種基于DNN噪聲分類的語音增強(qiáng)方法,涉及語音識別技術(shù)領(lǐng)域。該方法首先對噪聲信號進(jìn)行預(yù)處理,確定非語音段信號;然后對每幀語音信號進(jìn)行快速傅里葉變換并計算譜線能量;使語音信號的頻譜通過梅爾濾波器組,用頻譜能量乘以梅爾濾波器的頻率響應(yīng)來獲得梅爾濾波能量;然后對每幀信號的梅爾濾波能量的對數(shù)進(jìn)行離散余弦變換,得到梅爾倒譜參數(shù),將其作為語音每幀的梅爾濾波的特征向量;將每幀的梅爾濾波的特征向量作為一個24維的向量,并作為深度神經(jīng)網(wǎng)絡(luò)的輸入;利用深度神經(jīng)網(wǎng)絡(luò)模型對噪聲進(jìn)行訓(xùn)練與分類;本發(fā)明的基于DNN噪聲分類的語音增強(qiáng)方法,通過對噪聲的分類使得后續(xù)的語音增強(qiáng)質(zhì)量在主觀/客觀測試中得到了顯著的提高。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種基于DNN噪聲分類的語音增強(qiáng)方法。
背景技術(shù)
語音增強(qiáng)是一種從背景噪聲中提取有用語音信號的技術(shù),在語音信號被各種噪聲干擾后,抑制和減少噪聲干擾。語音增強(qiáng)是解決語音信號噪聲污染的有效方法。它也是語音信號處理的關(guān)鍵環(huán)節(jié)和步驟,廣泛應(yīng)用于人們的生產(chǎn)和生活。背景噪聲的干擾使語音信號處理的性能,如語音編碼、語音合成、語音識別等效果惡化。例如,語音識別是使用語音信號進(jìn)行人機(jī)交互的關(guān)鍵步驟,現(xiàn)有語音識別系統(tǒng)在安靜環(huán)境中具有很高的識別率,但在強(qiáng)噪聲環(huán)境下,識別率將迅速下降,無法滿足實際應(yīng)用的需要。對于各種語言控制系統(tǒng),其實現(xiàn)的根源是對語音的正確認(rèn)識和理解:而且它對語音的質(zhì)量也有更高的要求。強(qiáng)烈的背景噪音會導(dǎo)致系統(tǒng)對語音產(chǎn)生錯誤的識別和理解,然后執(zhí)行錯誤的操作。因此,應(yīng)將語音增強(qiáng)模塊添加到這些系統(tǒng)中,以抑制背景噪聲,提高語音信號的質(zhì)量,從而提高語音信號處理系統(tǒng)的性能。對于實際應(yīng)用的語音處理系統(tǒng),語音增強(qiáng)通常被用作前端處理,在各種形式的語音信號處理前過濾噪聲語音,如圖1所示。通過引入語音增強(qiáng)技術(shù),可以提高語音信號處理系統(tǒng)的魯棒性,在噪聲環(huán)境下的應(yīng)用也可以進(jìn)一步擴(kuò)展。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)的不足,提供一種基于DNN噪聲分類的語音增強(qiáng)方法,去除語音中的噪聲。
為解決上述技術(shù)問題,本發(fā)明所采取的技術(shù)方案是:一種基于DNN噪聲分類的語音增強(qiáng)方法,包括以下步驟:
步驟1、通過均值、標(biāo)準(zhǔn)化和預(yù)加重,分幀加窗這些方法對噪聲信號進(jìn)行預(yù)處理,在語音處理系統(tǒng)的語音活動檢測模塊中加窗確定非語音段信號;然后對每幀語音信號進(jìn)行快速傅里葉變換并計算譜線能量;使語音信號的頻譜通過梅爾濾波器組,用頻譜能量乘以梅爾濾波器的頻率響應(yīng)Hm(k)來獲得梅爾濾波能量,如下公式所示:
其中,s(m)為梅爾濾波能量,Xa(k)為輸入語音離散余弦變換值,k為濾波器個數(shù),N表示傅里葉變換點數(shù),m表示當(dāng)前幀,M表示該語音中包含的所有幀數(shù);
然后對每幀信號的梅爾濾波能量的對數(shù)進(jìn)行離散余弦變換,得到梅爾倒譜參數(shù),將其作為語音每幀的梅爾濾波的特征向量,如下公式所示:
其中,C(n)為每幀信號的梅爾倒譜參數(shù),n表示進(jìn)行離散余弦變換的每幀信號,L表示該語音中包含的進(jìn)行離線變換的所有幀數(shù);
步驟2、將每幀的梅爾濾波的特征向量作為一個24維的向量,并作為深度神經(jīng)網(wǎng)絡(luò)的輸入;
所述深度神經(jīng)網(wǎng)絡(luò)采用具有3個反向神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)系列的深度神經(jīng)網(wǎng)絡(luò)模型,該模型分為輸入層,輸出層和競爭層,并且3個反向神經(jīng)網(wǎng)絡(luò)處于并行模式;
步驟3、利用步驟2所述的深度神經(jīng)網(wǎng)絡(luò)模型對噪聲進(jìn)行訓(xùn)練與分類,具體方法為:
步驟3.1、由學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)將N種噪聲信號分為3大類,然后由反向傳播神經(jīng)網(wǎng)絡(luò)再細(xì)分為15個類,設(shè)定輸出層的每一類的值為z,如下公式所示:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽品尚科技有限公司,未經(jīng)沈陽品尚科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811587392.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 利用頻譜特性進(jìn)行聲音分析的改進(jìn)的梅爾濾波器組結(jié)構(gòu)
- 梅爾棒涂布小車
- 聲音轉(zhuǎn)換優(yōu)化方法和系統(tǒng)
- 一種基于DNN噪聲分類的語音增強(qiáng)方法
- 個性化語音合成方法、裝置、電子設(shè)備、存儲介質(zhì)
- 設(shè)備的喚醒方法及裝置、電子設(shè)備、存儲介質(zhì)
- 基于咳嗽聲識別的病癥檢測方法及其相關(guān)設(shè)備
- 多風(fēng)格音頻合成方法、裝置、設(shè)備及存儲介質(zhì)
- 模型的訓(xùn)練方法、裝置、語音轉(zhuǎn)換方法、設(shè)備及存儲介質(zhì)
- 語音轉(zhuǎn)換方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 語音增強(qiáng)方法、裝置、設(shè)備及存儲介質(zhì)
- 語音處理方法、裝置、終端及介質(zhì)
- 語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 一種車內(nèi)語音增強(qiáng)器、語音增強(qiáng)系統(tǒng)及增強(qiáng)方法
- 語音增強(qiáng)方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 一種語音增強(qiáng)方法、裝置、設(shè)備及存儲介質(zhì)
- 基于局部注意力機(jī)制的語音增強(qiáng)方法、裝置及介質(zhì)
- 語音增強(qiáng)方法、裝置、設(shè)備及存儲介質(zhì)
- 語音增強(qiáng)方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 語音增強(qiáng)方法、裝置、電子設(shè)備和存儲介質(zhì)





