[發(fā)明專利]基于去噪自編碼器的語音增強(qiáng)方法在審
| 申請?zhí)枺?/td> | 202011128458.7 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112530451A | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計)人: | 張世強(qiáng);胡顯秋;張婷娟;于樂;顧雷 | 申請(專利權(quán))人: | 國網(wǎng)黑龍江省電力有限公司伊春供電公司;國家電網(wǎng)有限公司;東北電力大學(xué) |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0216;G10L21/0224;G10L21/0264;G10L25/60;G10L19/04;G10L25/30 |
| 代理公司: | 吉林市達(dá)利專利事務(wù)所 22102 | 代理人: | 陳傳林 |
| 地址: | 153000 黑龍江省伊*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 編碼器 語音 增強(qiáng) 方法 | ||
本發(fā)明的一種基于去噪自編碼器的語音增強(qiáng)方法,其特點(diǎn)是,包括的內(nèi)容有:構(gòu)建去噪自編碼器訓(xùn)練模型,多麥克風(fēng)陣列獲取時域差值,重構(gòu)原聲預(yù)測模型進(jìn)行去噪處理,能夠有效的降低噪聲對語音信號的干擾,顯著提高語音信號的信噪比,具有科學(xué)合理、結(jié)構(gòu)簡單、去噪效果好、適用范圍廣等優(yōu)點(diǎn)。
技術(shù)領(lǐng)域
本發(fā)明屬于語音信號處理技術(shù)領(lǐng)域,涉及一種基于去噪自編碼器的語音增強(qiáng)方法。
背景技術(shù)
語音降噪是語音處理系統(tǒng)的重要前端。背景噪音和人聲干擾會降低語音信號的質(zhì)量及可懂度,并在實(shí)際應(yīng)用中導(dǎo)致性能下降,包括語音通信、助聽器和語音識別。語音降噪的一個關(guān)鍵目標(biāo)是提高干擾噪聲存在時的質(zhì)量和可懂度。
在語音降噪算法中,最常用的方法就是譜減法。譜減法具有算法簡單、運(yùn)算量小的特點(diǎn)。該算法的不足之處是處理后會產(chǎn)生聽上去類似音樂的“音樂噪聲”。基于自適應(yīng)濾波器法的語音降噪算法,可以利用前一幀的濾波器參數(shù)和濾波結(jié)果,自動調(diào)整當(dāng)前幀的濾波器參數(shù),它對干凈語音信號和噪聲的先驗(yàn)知識要求較低。從而適應(yīng)干凈語音信號和噪聲未知的隨機(jī)變化和統(tǒng)計性,所以降噪后的語音無論在信噪比和聽感上都有明顯的進(jìn)步。但這類算法往往存在收斂速度慢、不適用于非平穩(wěn)噪聲問題。基于最小均方誤差估計法(MMSE)語音降噪算法能夠有效抑制殘留的“音樂噪聲”。但是這種方法在低信噪比的情況下,對語音幀和非語音幀的識別極容易出錯,導(dǎo)致降噪后的語音嚴(yán)重失真。基于子空間的語音降噪算法是通過空間分解將整個空間分為純噪聲子空間和純語音子空間。通過設(shè)計一個既要保證殘差信號譜的同時,還要考慮使語音失真最小化的估計器,來去除噪聲子空間并估計語音信號特征值從而實(shí)現(xiàn)語音降噪。其中一種最常用的基于最優(yōu)約束估計器的子空間語音降噪,但該語音降噪算法復(fù)雜度很高,很難在嵌入式平臺上實(shí)現(xiàn)。小波變換方法是一種新型變換分析方法,能夠在時間或空間上進(jìn)行頻率的局部分析。通過伸縮和平移運(yùn)算對信號進(jìn)行逐步尺度細(xì)化,具有多分辨率分析的特性,能夠自適應(yīng)信號分析的要求,現(xiàn)已被廣泛運(yùn)用在音頻、圖像處理領(lǐng)域中。依據(jù)小波變換能夠有效去除數(shù)據(jù)的相關(guān)性特點(diǎn),使得干凈語音信號能量集中在小波域中的較大的小波系數(shù)中,噪聲能量則集中在較小的小波系數(shù)中。其本質(zhì)上是一種小波域?yàn)V波算法,選擇適當(dāng)?shù)拈撝凳顷P(guān)系到系統(tǒng)表現(xiàn)的關(guān)鍵所在。但是閾值獲取困難且算法復(fù)雜度越來越高,較難用于實(shí)時通信。深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用于語音降噪工作變得越來越流行。基于深度神經(jīng)網(wǎng)絡(luò)的語音降噪算法是通過堆疊自動編碼器,形成一個深層神經(jīng)網(wǎng)絡(luò),輸入為含噪語音的對數(shù)功率譜,對應(yīng)輸出干凈語音信號的對數(shù)功率譜。該網(wǎng)絡(luò)雖然較傳統(tǒng)單通道語音算法有較好的降噪效果,但存在網(wǎng)絡(luò)訓(xùn)練困難、在低信噪比條件下表現(xiàn)能力欠佳的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是,為了降低噪聲對語音信號的干擾,提高語音信號的信噪比,提出一種基于去噪自編碼器的語音增強(qiáng)方法,實(shí)現(xiàn)語音信號的增強(qiáng)。
本發(fā)明的目的是由以下技術(shù)方案來實(shí)現(xiàn)的:一種基于去噪自編碼器的語音增強(qiáng)方法,其特征是,它包括的內(nèi)容有:構(gòu)建去噪自編碼器訓(xùn)練模型,多麥克風(fēng)陣列獲取時域差值,重構(gòu)原聲預(yù)測模型進(jìn)行去噪處理,
1)構(gòu)建去噪自編碼器訓(xùn)練模型
去噪自編碼器訓(xùn)練模型設(shè)計為三層網(wǎng)絡(luò)模型,第一層為輸入層,中間層為隱藏層,設(shè)計節(jié)點(diǎn)個數(shù)為1024個,第三層為輸出層,將輸出層與原始無損數(shù)據(jù)進(jìn)行比對,最小化損失值:
式中,是樣本x經(jīng)過損壞過程后得到的損壞樣本,通常分布pdecoder是因子的分布,平局參數(shù)由前饋網(wǎng)絡(luò)給出,這里對負(fù)對數(shù)釋然進(jìn)行基于梯度下降法的近似最小化,即是樣本的概率分布,這樣構(gòu)成了確定的自編碼器,也就是一個前饋的網(wǎng)絡(luò),并且能夠使用與其他前饋網(wǎng)絡(luò)完全相同的方式進(jìn)行訓(xùn)練,因此整個自動編碼器就可類比為下一個期望的梯度下降:
其中,是訓(xùn)練數(shù)據(jù)的分布,表示對分布的期望值,表示對樣本在全量x上的下一個期望值;
2)多麥克風(fēng)陣列獲取時域差值
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)黑龍江省電力有限公司伊春供電公司;國家電網(wǎng)有限公司;東北電力大學(xué),未經(jīng)國網(wǎng)黑龍江省電力有限公司伊春供電公司;國家電網(wǎng)有限公司;東北電力大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011128458.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





