[發(fā)明專利]一種端到端的骨氣導(dǎo)語(yǔ)音聯(lián)合增強(qiáng)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011612056.4 | 申請(qǐng)日: | 2020-12-30 |
| 公開(公告)號(hào): | CN112786064B | 公開(公告)日: | 2023-09-08 |
| 發(fā)明(設(shè)計(jì))人: | 王謀;張曉雷;王逸平 | 申請(qǐng)(專利權(quán))人: | 西北工業(yè)大學(xué) |
| 主分類號(hào): | G10L21/02 | 分類號(hào): | G10L21/02;G10L21/0272;G10L25/30 |
| 代理公司: | 西安凱多思知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61290 | 代理人: | 劉新瓊 |
| 地址: | 710072 *** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 端到端 骨氣 導(dǎo)語(yǔ) 聯(lián)合 增強(qiáng) 方法 | ||
1.一種端到端的骨氣導(dǎo)語(yǔ)音聯(lián)合增強(qiáng)方法,其特征在于,包括以下步驟:
步驟1:在無噪聲環(huán)境下同步錄制氣導(dǎo)語(yǔ)音xa和骨導(dǎo)語(yǔ)音xb;給氣導(dǎo)語(yǔ)音xa添加環(huán)境噪聲,得到其中為帶噪聲的氣導(dǎo)語(yǔ)音,na為環(huán)境噪聲;構(gòu)建數(shù)據(jù)集再將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;
步驟2:將訓(xùn)練集的語(yǔ)音數(shù)據(jù)按固定長(zhǎng)度切割為多個(gè)小段語(yǔ)音;
步驟3:構(gòu)建端到端的神經(jīng)網(wǎng)絡(luò)模型,所述神經(jīng)網(wǎng)絡(luò)模型包括編碼器E、掩膜估計(jì)器M和解碼器;
步驟3-1:所述編碼器E由一維卷積構(gòu)成,編碼器E的輸入為經(jīng)過步驟2切割的數(shù)據(jù)通過編碼器E將帶噪聲的氣導(dǎo)語(yǔ)音和骨導(dǎo)語(yǔ)音xb轉(zhuǎn)化到同一個(gè)特征空間中,輸出得到特征圖編碼器E的輸入通道為2,輸出通道數(shù)與編碼器E的一維卷積的卷積核的數(shù)量相同;
步驟3-2:所述掩膜估計(jì)器M為一個(gè)時(shí)域卷積網(wǎng)絡(luò),包括多個(gè)串行堆疊的卷積塊,每個(gè)卷積塊包括串行排列的一個(gè)1x1的卷積和一個(gè)深度可分離卷積,每個(gè)1x1的卷積后跟隨一個(gè)PReLU非線性激活函數(shù)和歸一化操作,每個(gè)深度可分離卷積后跟隨一個(gè)PReLU非線性激活函數(shù)和歸一化操作;每經(jīng)過一個(gè)卷積塊,1x1的卷積的擴(kuò)張因子的值乘以2;
掩膜估計(jì)器M的輸入為特征圖z,輸出為和特征圖z尺寸相同的掩膜m,即m=M(z);
步驟3-3:將特征圖z和掩膜估計(jì)器輸出的掩膜m進(jìn)行點(diǎn)乘,得到一個(gè)新的特征圖c=z·m;
步驟3-4:所述解碼器D由一維反卷積構(gòu)成;將新的特征圖c送入解碼器D中,解碼器D將新的特征圖c轉(zhuǎn)化為一個(gè)單通道的語(yǔ)音信號(hào)y=D(c);
步驟4:對(duì)端到端的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,訓(xùn)練目標(biāo)為最大化尺度無關(guān)的信噪比,具體表示為:
其中,·代表內(nèi)積,SI-SNR為尺度無關(guān)的信噪比;
使用訓(xùn)練集和驗(yàn)證集的數(shù)據(jù)用Adam優(yōu)化器對(duì)端到端的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,如果用驗(yàn)證集驗(yàn)證時(shí)SI-SNR的值不再增大,則停止訓(xùn)練,得到最終端到端的神經(jīng)網(wǎng)絡(luò)模型;
步驟5:模型測(cè)試;
將測(cè)試集數(shù)據(jù)送入步驟4得到的最終端到端的神經(jīng)網(wǎng)絡(luò)模型,輸出得到聯(lián)合增強(qiáng)的語(yǔ)音信號(hào)。
2.根據(jù)權(quán)利要求1所述的一種端到端的骨氣導(dǎo)語(yǔ)音聯(lián)合增強(qiáng)方法,其特征在于,所述將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集的方法為將數(shù)據(jù)集的70%設(shè)置為訓(xùn)練集,20%設(shè)置為驗(yàn)證集,剩下的10%設(shè)置為測(cè)試集。
3.根據(jù)權(quán)利要求1所述的一種端到端的骨氣導(dǎo)語(yǔ)音聯(lián)合增強(qiáng)方法,其特征在于,所述將訓(xùn)練集的語(yǔ)音數(shù)據(jù)按固定長(zhǎng)度切割為多個(gè)小段語(yǔ)音分割中的固定長(zhǎng)度為1s。
4.根據(jù)權(quán)利要求1所述的一種端到端的骨氣導(dǎo)語(yǔ)音聯(lián)合增強(qiáng)方法,其特征在于,所述編碼器E的一維卷積的卷積核大小為20,個(gè)數(shù)為256,stride設(shè)置為8,輸出通道數(shù)等于256。
5.根據(jù)權(quán)利要求1所述的一種端到端的骨氣導(dǎo)語(yǔ)音聯(lián)合增強(qiáng)方法,其特征在于,所述掩膜估計(jì)器M包括8個(gè)串行堆疊的卷積塊。
6.根據(jù)權(quán)利要求1所述的一種端到端的骨氣導(dǎo)語(yǔ)音聯(lián)合增強(qiáng)方法,其特征在于,所述解碼器D的一維卷積的卷積核的大小為20,卷積核個(gè)數(shù)為1。
7.根據(jù)權(quán)利要求1所述的一種端到端的骨氣導(dǎo)語(yǔ)音聯(lián)合增強(qiáng)方法,其特征在于,所述步驟4中對(duì)端到端的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練的最大訓(xùn)練次數(shù)設(shè)置為30個(gè)epoch,初始學(xué)習(xí)率設(shè)置為0.001。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學(xué),未經(jīng)西北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011612056.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 導(dǎo)航系統(tǒng)
- 用于從受控對(duì)話語(yǔ)法創(chuàng)建混合主導(dǎo)語(yǔ)法的方法和設(shè)備
- 一種可用于強(qiáng)噪聲環(huán)境的語(yǔ)音增強(qiáng)方法及裝置
- 一種基于多語(yǔ)種指導(dǎo)語(yǔ)音切換播放方法
- 一種深度雙向門遞歸神經(jīng)網(wǎng)絡(luò)的骨導(dǎo)語(yǔ)音增強(qiáng)方法
- 引導(dǎo)語(yǔ)推薦方法、裝置及電子設(shè)備
- 一種基于WaveNet的骨導(dǎo)語(yǔ)音增強(qiáng)波形生成方法
- 一種基于聯(lián)合字典學(xué)習(xí)和稀疏表示的骨導(dǎo)語(yǔ)音增強(qiáng)方法
- 一種基于差分運(yùn)算和聯(lián)合字典學(xué)習(xí)的骨導(dǎo)語(yǔ)音增強(qiáng)方法
- 一種業(yè)務(wù)執(zhí)行的方法及裝置
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動(dòng)臺(tái)
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動(dòng)臺(tái)
- 便攜信息終端、以及便攜信息終端的控制方法
- 電法與地震同步聯(lián)合反演方法及系統(tǒng)
- 銀行聯(lián)合放款的放款方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于自主學(xué)習(xí)群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 一種基于多目標(biāo)種群群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 聯(lián)合貸款中的罰息與利息結(jié)算方法、裝置、介質(zhì)和設(shè)備
- 一種基坑支護(hù)用H型鋼構(gòu)件
- 用于云環(huán)境的語(yǔ)義元聯(lián)合代理





