[發(fā)明專利]基于動態(tài)卷積和窄帶Conformer的語音增強方法在審
| 申請?zhí)枺?/td> | 202211425722.2 | 申請日: | 2022-11-15 |
| 公開(公告)號: | CN115762544A | 公開(公告)日: | 2023-03-07 |
| 發(fā)明(設計)人: | 李燕萍;陸元昕 | 申請(專利權(quán))人: | 南京郵電大學 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L21/0208;G10L25/30 |
| 代理公司: | 南京正聯(lián)知識產(chǎn)權(quán)代理有限公司 32243 | 代理人: | 姜夢翔 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 動態(tài) 卷積 窄帶 conformer 語音 增強 方法 | ||
本發(fā)明涉及語音處理技術領域,具體涉及到一種基于動態(tài)卷積和窄帶Conformer的語音增強方法,本方法包括訓練階段和測試階段,能夠?qū)崿F(xiàn)高質(zhì)量的語音增強。本發(fā)明中提出的語音增強模型由生成器和鑒別器組成,首先在生成器中采用窄帶Conformer網(wǎng)絡提升模型對語音頻譜信息的提取能力,進一步利用動態(tài)卷積代替?zhèn)鹘y(tǒng)卷積,極大地減少模型的參數(shù)量和計算量,不僅改善降噪效果,而且有效提升算法的運行效率以及模型的穩(wěn)定性和可靠性。
技術領域
本發(fā)明涉及語音處理技術領域,具體涉及到一種基于動態(tài)卷積和窄帶Conformer的語音增強方法。
背景技術
在真實環(huán)境中,語音信號不可避免地受到各種噪聲的干擾,如其他人的談話、電視節(jié)目、餐館、地鐵等聲音。除了環(huán)境噪聲,聲波在封閉空間(如客廳、會議室等)中的衰減和延時反射所引起的混響,也會影響語音的感知質(zhì)量。研究者將真實場景下影響語音質(zhì)量的因素總結(jié)為三大方面:環(huán)境噪聲、房間混響和其他說話人干擾。語音增強的研究目標就是消除這三方面的影響。語音增強技術,是指通過語音信號處理算法從被噪聲干擾的語音中恢復目標語音,進而提高目標語音的感知質(zhì)量和可懂度。
常見的語音增強算法可以劃分成兩大類:傳統(tǒng)的語音增強算法和基于機器學習的語音增強算法。經(jīng)過幾十年的發(fā)展,傳統(tǒng)的語音增強算法領域已經(jīng)誕生了幾類非常經(jīng)典的語音增強算法。1979年,Boll等人提出了經(jīng)典的譜減法,隨后Lim等人針對譜減法的一系列問題提出了維納濾波法。1985年,Ephraim等人提出了基于對數(shù)譜的最小方差誤差估計方法。1991年,Dendrinos等人提出了將奇異值分解運用于信號子空間中,但是這種方法也會出現(xiàn)一定的語音失真以及音樂噪聲問題。為了解決此問題,2000年,Mittal等人提出了一種基于噪聲霍特林變換矩陣的語音增強算法。
隨著計算機硬件能力的提升以及訓練數(shù)據(jù)集的不斷擴大,基于機器學習的語音增強算法受到了研究人員的重視。1992年,Ephraim等人提出了利用語音識別領域中隱馬爾可夫模型的基本思想,對含噪語音及純凈語音進行最大后驗信號估計和最小均方誤差來實現(xiàn)語音增強,獲得了比譜減法更佳的語音增強效果。2008年,Wilson等人提出了基于非負矩陣分解的算法。2013年,Lu等人基于深度置信網(wǎng)絡以及降噪自動編碼器的思想,成功將深層神經(jīng)網(wǎng)絡運用到語音增強領域中。隨著卷積神經(jīng)網(wǎng)絡的興起,其網(wǎng)絡中的計算可以并行執(zhí)行,同時特有的權(quán)重共享及局部感知的特性可以有效地捕獲語音信號中的一些局部細節(jié)。2017年,Pascualet等人提出SEGAN模型,驗證了基于生成對抗網(wǎng)絡的時域語音增強的可行性。2018年,Kim等人提出MDPhD模型,該模型一定程度上緩解了時域語音增強方法建模困難的問題。
得益于語音增強領域的蓬勃發(fā)展,上述提到的方法在一定程度上提升了語音增強的感知質(zhì)量和可懂度,但上述提到的方法尚存在以下問題:由于長輸入導致的計算量過大,從而降低了模型效率,另一方面,模型對語音特征信息的提取能力有待提高,因此如何減少計算參數(shù)量以及進一步提高模型效率,同時提高模型對語音特征信息的提取能力成為當前該領域的研究熱點和難點。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術計算的參數(shù)量過大,模型效率低下,耗時過長的不足,本發(fā)明披露了一種基于動態(tài)卷積和窄帶Conformer的語音增強方法,該方法可以增強網(wǎng)絡的表征能力,有效提取局部和全局的上下文特征信息,提高模型對深層特征的學習能力,從而獲得更高的語音感知質(zhì)量和可懂度。
本發(fā)明采用的技術方案如下:
一種基于動態(tài)卷積和窄帶Conformer語音增強方法,包括訓練階段和測試階段,所述訓練階段包括以下步驟:
步驟1、獲取大量的訓練語料,訓練語料由多名說話人的語料組成,包括含噪語音和純凈語音;
步驟2、對訓練語料中的原始含噪語音、原始純凈語音進行預處理,得到固定長度的含噪語音x和純凈語音s;
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學,未經(jīng)南京郵電大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211425722.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





