[發(fā)明專(zhuān)利]一種基于DNN-CLSTM網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011323987.2 | 申請(qǐng)日: | 2020-11-23 |
| 公開(kāi)(公告)號(hào): | CN112735456A | 公開(kāi)(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計(jì))人: | 汪友明;張?zhí)扃?/a> | 申請(qǐng)(專(zhuān)利權(quán))人: | 西安郵電大學(xué) |
| 主分類(lèi)號(hào): | G10L21/0208 | 分類(lèi)號(hào): | G10L21/0208;G10L21/0216;G10L25/24;G10L25/30 |
| 代理公司: | 西安佳士成專(zhuān)利代理事務(wù)所合伙企業(yè)(普通合伙) 61243 | 代理人: | 李丹 |
| 地址: | 710121 陜西省西安市*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 dnn clstm 網(wǎng)絡(luò) 語(yǔ)音 增強(qiáng) 方法 | ||
本發(fā)明是一種基于深度神經(jīng)網(wǎng)絡(luò)和殘差長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(DNN?CLSTM)的語(yǔ)音增強(qiáng)方法。此方法將譜減法獲取的語(yǔ)音幅值特征和快速傅里葉變換獲取的語(yǔ)音梅爾倒譜系數(shù)(MFCC)特征輸入至DNN?CLSTM網(wǎng)絡(luò)模型,實(shí)現(xiàn)語(yǔ)音增強(qiáng)的目的。首先,對(duì)含噪語(yǔ)音進(jìn)行時(shí)頻掩蔽和加窗分幀處理,利用快速傅里葉變換獲取含噪語(yǔ)音的幅值和相位特征,并估計(jì)出含噪語(yǔ)音的噪聲幅值;然后,用含噪語(yǔ)音幅值減去估計(jì)的噪聲信號(hào)幅值,得到譜減后的語(yǔ)音信號(hào)幅值作為神經(jīng)網(wǎng)絡(luò)輸入的第一特征。其次,對(duì)含噪語(yǔ)音進(jìn)行快速傅里葉變換(FFT),求取語(yǔ)音信號(hào)的譜線能量進(jìn)而得到含噪語(yǔ)音的MFCC特征作為語(yǔ)音信號(hào)的第二特征。將上述二種特征輸入至DNN?CLSTM網(wǎng)絡(luò)中進(jìn)行訓(xùn)練得到網(wǎng)絡(luò)模型,并采取最小均方誤差(MMSE)損失函數(shù)評(píng)價(jià)指標(biāo)評(píng)估模型有效性。最后,將實(shí)際含噪語(yǔ)音集輸入至完成訓(xùn)練的語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型中,預(yù)測(cè)出增強(qiáng)后的估計(jì)幅值和MFCC,采用逆傅立葉變換得到最終的增強(qiáng)語(yǔ)音信號(hào)。本發(fā)明具有語(yǔ)音的高保真性。
技術(shù)領(lǐng)域
本發(fā)明屬于語(yǔ)音增強(qiáng)技術(shù)領(lǐng)域,具體涉及一種基于DNN-CLSTM網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法。
背景技術(shù)
語(yǔ)音作為信息傳輸?shù)闹饕绞街?,在生活中得到了大量的?yīng)用,隨著技術(shù)的發(fā)展,語(yǔ)音不僅在人與人交流之間起到了信息傳遞的作用,在人機(jī)交互中也大量運(yùn)用到了語(yǔ)音信號(hào)。然而在我們的通信過(guò)程中,語(yǔ)音信號(hào)往往都伴隨著大量的噪聲信號(hào),如工廠噪聲、汽車(chē)噪聲或者餐廳的嘈雜聲等背景噪聲。包含了大量噪聲的語(yǔ)音信號(hào)會(huì)使得接收方在對(duì)語(yǔ)音信號(hào)中包含的有用信息進(jìn)行提取時(shí)產(chǎn)生大量的干擾。針對(duì)這一問(wèn)題,語(yǔ)音信號(hào)增強(qiáng)技術(shù)得到了廣泛關(guān)注。
語(yǔ)音增強(qiáng)是指現(xiàn)實(shí)中的語(yǔ)音被噪聲干擾時(shí),將噪聲和語(yǔ)音信號(hào)分離的過(guò)程。語(yǔ)音增強(qiáng)技術(shù)現(xiàn)已經(jīng)得到了廣泛的運(yùn)用,如移動(dòng)通信領(lǐng)域、語(yǔ)音識(shí)別領(lǐng)域等諸多領(lǐng)域。語(yǔ)音增強(qiáng)技術(shù)的主要目的是為了提高語(yǔ)音質(zhì)量以及語(yǔ)音可懂度。目前,語(yǔ)音增強(qiáng)方法主要分為譜減法、子空間算法以及基于統(tǒng)計(jì)模型的算法三種。隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)已經(jīng)被應(yīng)用到了語(yǔ)音增強(qiáng)領(lǐng)域。
圖1所示的譜減法是語(yǔ)音增強(qiáng)技術(shù)中最早去噪技術(shù)之一。譜減法去噪基于以下原理:假設(shè)噪聲是加性噪聲,即y(m)=x(m)+n(m),其中y(m)是包含噪聲的信號(hào),x(m)是純凈的語(yǔ)音信號(hào),n(m)是加性噪聲;通過(guò)從包含噪聲的語(yǔ)音信號(hào)中減去對(duì)噪聲譜的估計(jì),就可以得到純凈的語(yǔ)音信號(hào)。這一假設(shè)的前提條件是噪聲信號(hào)是平穩(wěn)的,使得在不存在目標(biāo)信號(hào)的語(yǔ)音段間,可以對(duì)噪聲信號(hào)進(jìn)行估計(jì)并且進(jìn)行更新。
譜減法是一種相對(duì)簡(jiǎn)單的語(yǔ)音增強(qiáng)算法,其原理是從輸入的混合語(yǔ)音信號(hào)的幅度譜值減去估計(jì)的噪聲幅度譜值,利用人耳對(duì)相位的不靈敏性,把譜減前的相位角信息直接用到譜減后的信息中來(lái)合成最終譜減后的語(yǔ)音信號(hào)。由于譜減法只包含一次傅里葉變化和傅里葉逆變化,因此它的計(jì)算量較小,并且易于實(shí)現(xiàn)。但現(xiàn)實(shí)中許多噪聲是不平穩(wěn)的信號(hào),因此使用譜減法對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng)后,增強(qiáng)后的語(yǔ)音信號(hào)往往存在著大量的音樂(lè)噪聲,從而導(dǎo)致語(yǔ)音信號(hào)失真,使得信號(hào)的可懂度與語(yǔ)音質(zhì)量較差。
發(fā)明內(nèi)容
本發(fā)明的目的是解決基于譜減法的語(yǔ)音增強(qiáng)過(guò)程中存在的語(yǔ)音信號(hào)失真、信號(hào)的可懂度與語(yǔ)音質(zhì)量較差等問(wèn)題。為達(dá)上述目的,本發(fā)明提供了一種基于DNN-CLSTM網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法,其特征在于,包括以下步驟:
步驟一:獲取至少兩路含噪語(yǔ)音信號(hào),含噪語(yǔ)音信號(hào)由純凈語(yǔ)音信號(hào)和噪聲信號(hào)相加而成:
y(m)=x(m)+n(m)
其中,y(m)是包含噪聲的含噪語(yǔ)音信號(hào),x(m)是純凈語(yǔ)音信號(hào),n(m)是噪聲信號(hào),m為離散時(shí)間序列;
步驟二:分幀加窗,獲取純凈語(yǔ)音信號(hào)以及含噪語(yǔ)音信號(hào)的幅值和相位作為第一特征:對(duì)含噪語(yǔ)音信號(hào)進(jìn)行加窗分幀處理,并且使用離散傅里葉變化得到含噪語(yǔ)音信號(hào)的幅值以及相位;同時(shí),在不含目標(biāo)信號(hào)并且只含有噪聲的語(yǔ)音信號(hào)段,對(duì)噪聲進(jìn)行估計(jì),求出噪聲信號(hào)幅值;
步驟三、用含噪語(yǔ)音信號(hào)的幅值減去所述噪聲信號(hào)幅值,從而得到譜減語(yǔ)音信號(hào)幅值作為第二特征;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安郵電大學(xué),未經(jīng)西安郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011323987.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 經(jīng)由輸出分布來(lái)學(xué)習(xí)學(xué)生DNN
- 深度神經(jīng)網(wǎng)絡(luò)DNN模型的壓縮方法、裝置、設(shè)備及介質(zhì)
- 用于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的有效數(shù)據(jù)編碼
- 固態(tài)圖像捕獲裝置、信息處理裝置、信息處理系統(tǒng)、信息處理方法和程序
- 固態(tài)成像系統(tǒng)、固態(tài)成像裝置、信息處理裝置、圖像處理方法、信息處理方法和程序
- 用于對(duì)圖像執(zhí)行人工智能編碼和人工智能解碼的方法和設(shè)備
- 一種海洋通信系統(tǒng)聯(lián)合信道分類(lèi)、估計(jì)和檢測(cè)方法
- DNN程序文檔自動(dòng)生成方法
- 一種物聯(lián)網(wǎng)場(chǎng)景下的DNN劃分方法及裝置
- 一種用于ReID的神經(jīng)網(wǎng)絡(luò)構(gòu)造方法及其訓(xùn)練方法
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





