[發(fā)明專利]基于動態(tài)卷積和窄帶Conformer的語音增強方法在審
| 申請?zhí)枺?/td> | 202211425722.2 | 申請日: | 2022-11-15 |
| 公開(公告)號: | CN115762544A | 公開(公告)日: | 2023-03-07 |
| 發(fā)明(設(shè)計)人: | 李燕萍;陸元昕 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L21/0208;G10L25/30 |
| 代理公司: | 南京正聯(lián)知識產(chǎn)權(quán)代理有限公司 32243 | 代理人: | 姜夢翔 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 動態(tài) 卷積 窄帶 conformer 語音 增強 方法 | ||
1.一種基于動態(tài)卷積和窄帶Conformer的語音增強方法,其特征在于,包括訓(xùn)練階段和測試階段,
所述訓(xùn)練階段包括以下步驟:
步驟1、獲取大量的訓(xùn)練語料,訓(xùn)練語料由多名說話人的語料組成,包括含噪語音和純凈語音;
步驟2、對訓(xùn)練語料中的原始含噪語音、原始純凈語音進行預(yù)處理,得到固定長度的含噪語音x和純凈語音s;
步驟3、將上述預(yù)處理后得到的固定長度的含噪語音x、純凈語音s輸入到增強網(wǎng)絡(luò)中進行訓(xùn)練;
步驟4、設(shè)置所述增強網(wǎng)絡(luò)的超參數(shù),使得目標函數(shù)最小化,直至設(shè)置的迭代次數(shù),從而得到訓(xùn)練好的增強網(wǎng)絡(luò);
所述測試階段包括以下步驟:
步驟5、選取不同噪聲的原始含噪語音作為待增強語料,預(yù)處理待增強語料中的原始含噪語音,得到固定長度的含噪語音x′;
步驟6、將上述預(yù)處理后得到的固定長度的含噪語音x′輸入步驟4訓(xùn)練好的增強網(wǎng)絡(luò)中,從而得到增強語音。
2.根據(jù)權(quán)利要求1所述的基于動態(tài)卷積和窄帶Conformer的語音增強方法,其特征在于,在所述步驟3中,所述語音增強網(wǎng)絡(luò)包括生成器G和鑒別器D,所述的生成器G由編碼網(wǎng)絡(luò)、分離網(wǎng)絡(luò)、窄帶Conformer網(wǎng)絡(luò)以及解碼網(wǎng)絡(luò)組成,其中窄帶Conformer網(wǎng)絡(luò)構(gòu)建在分離網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間;說話人的高維度中間向量依次輸入到窄帶Conformer網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)中;所述的鑒別器D由編碼網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和評估網(wǎng)絡(luò)組成,所述鑒別器D的編碼網(wǎng)絡(luò)與生成器G的編碼網(wǎng)絡(luò)共享權(quán)重。
3.根據(jù)權(quán)利要求2所述的基于動態(tài)卷積和窄帶Conformer的語音增強方法,其特征在于,步驟3中的訓(xùn)練過程如下:
(1)對原始含噪語音進行預(yù)處理,得到固定長度的含噪語音x,將固定長度的含噪語音x輸入到生成器G的編碼網(wǎng)絡(luò),對含噪語音進行特征提取,得到高維度的中間向量U(x);
(2)將上述得到的高維度的中間向量U(x)輸入到生成器G的分離網(wǎng)絡(luò)中估計潛在特征掩碼,從而得到各個含噪語音對應(yīng)的潛在特征掩碼F(U(x));
(3)將上述得到的潛在特征掩碼F(U(x))輸入到生成器G的解碼網(wǎng)絡(luò)中進行訓(xùn)練,在訓(xùn)練過程中最小化生成器G的損失函數(shù),從而得到增強語音
(4)將上述得到的增強語音純凈語音s一同輸入到鑒別器D中進行訓(xùn)練,最小化鑒別器D的損失函數(shù);
(5)重復(fù)(1)-(4)的過程,直至達到設(shè)置的迭代次數(shù),從而得到訓(xùn)練好的DyConv-NBCTSEGAN網(wǎng)絡(luò)。
4.根據(jù)權(quán)利要求3所述的基于動態(tài)卷積和窄帶Conformer的語音增強方法,其特征在于,所述步驟6中的輸入過程如下:
(1)對原始含噪語音進行預(yù)處理,得到固定長度的含噪語音x,將固定長度的含噪語音x輸入到生成器G的編碼網(wǎng)絡(luò)中進行特征提取,得到高維度的中間向量U(x);
(2)將上述得到的高維度的中間向量U(x)輸入到生成器G的分離網(wǎng)絡(luò)中估計潛在特征掩碼,從而得到各個含噪語音對應(yīng)的潛在特征掩碼F(U(x));
(3)將上述得到的潛在特征掩碼F(U(x))輸入到生成器G的解碼網(wǎng)絡(luò)中進行訓(xùn)練,在訓(xùn)練過程中最小化生成器G的損失函數(shù),從而得到增強語音
5.根據(jù)權(quán)利要求4所述的基于動態(tài)卷積和窄帶Conformer的語音增強方法,其特征在于,所述鑒別器D由一個兩維卷積神經(jīng)網(wǎng)絡(luò)模塊2D-CNN、一個與生成器G中的編碼網(wǎng)絡(luò)共享權(quán)重的鎖定編碼模塊和一個度量評估模塊組成,其中,度量評估模塊引入了一個評估度量Q(·,s)來指導(dǎo)鑒別器G優(yōu)化并計算鑒別器的損失,Q(·,s)用于限制鑒別器D的評估分數(shù),不直接用作損失函數(shù):
所述度量評估Q(·,s)為:
其中,SI-SNR(·,s)表示SI-SNR損失,即尺度不變的信噪比,β表示調(diào)整tanh(·)靈敏度區(qū)間的參數(shù),SI-SNR(·,s)∈R用tanh(·)得到度量評估Q(·,s)∈[-1,1],其中,Q(·,s)=1和Q(·,s)=-1分別表示最好的情況和最壞的情況,對應(yīng)于最佳和最差的SI-SNR值;
所述SI-SNR損失為:
其中,表示比例因子,s表示純凈語音,表示增強語音,表示信號功率,表示2-范數(shù)的平方。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211425722.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)





