[發(fā)明專利]基于DenseNet STARGAN的多對(duì)多說話人轉(zhuǎn)換方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010179723.8 | 申請(qǐng)日: | 2020-03-16 |
| 公開(公告)號(hào): | CN111833855A | 公開(公告)日: | 2020-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 李燕萍;袁昌龍;徐玲俐 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G10L15/08 | 分類號(hào): | G10L15/08;G10L15/16;G10L15/18;G10L15/06 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 劉文聞 |
| 地址: | 210003 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 densenet stargan 說話 轉(zhuǎn)換 方法 | ||
1.一種基于DenseNet STARGAN的多對(duì)多說話人轉(zhuǎn)換方法,其特征在于,包括訓(xùn)練階段和轉(zhuǎn)換階段,所述訓(xùn)練階段包括以下步驟:
(1.1)獲取訓(xùn)練語料,訓(xùn)練語料由多名說話人的語料組成,包含源說話人和目標(biāo)說話人;
(1.2)將所述的訓(xùn)練語料通過WORLD語音分析/合成模型,提取出各說話人語料的頻譜特征x、非周期性特征以及基頻特征;
(1.3)將源說話人的頻譜特征xs、目標(biāo)說話人的頻譜特征xt、源說話人標(biāo)簽cs以及目標(biāo)說話人標(biāo)簽ct,輸入到DenseNet STARGAN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,所述的DenseNet STARGAN網(wǎng)絡(luò)由生成器G、鑒別器D、分類器C組成,所述的生成器G由編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)構(gòu)成,在編碼網(wǎng)絡(luò)與解碼網(wǎng)絡(luò)之間搭建若干層由DenseNet連接的卷積網(wǎng)絡(luò);
(1.4)訓(xùn)練過程使生成器G的損失函數(shù)、鑒別器D的損失函數(shù)、分類器C的損失函數(shù)盡量小,直至設(shè)置的迭代次數(shù),從而得到訓(xùn)練好的DenseNet STARGAN網(wǎng)絡(luò);
(1.5)構(gòu)建從源說話人的語音基頻到目標(biāo)說話人的語音基頻的基頻轉(zhuǎn)換函數(shù);
所述轉(zhuǎn)換階段包括以下步驟:
(2.1)將待轉(zhuǎn)換語料中源說話人的語音通過WORLD語音分析/合成模型提取出頻譜特征xs′、非周期性特征和基頻特征;
(2.2)將上述源說話人頻譜特征xs′、目標(biāo)說話人標(biāo)簽特征ct′輸入步驟(1.4)中訓(xùn)練好的DenseNet STARGAN網(wǎng)絡(luò),重構(gòu)出目標(biāo)說話人頻譜特征xtc′;
(2.3)通過步驟(1.5)得到的基頻轉(zhuǎn)換函數(shù),將步驟(2.1)中提取出的源說話人基頻特征轉(zhuǎn)換為目標(biāo)說話人的基頻特征;
(2.4)將步驟(2.2)中得到的重構(gòu)目標(biāo)說話人頻譜特征xtc′、步驟(2.3)中得到的目標(biāo)說話人的基頻特征和步驟(2.1)中提取的非周期性特征通過WORLD語音分析/合成模型,合成得到轉(zhuǎn)換后的說話人語音。
2.根據(jù)權(quán)利要求1所述的基于DenseNet STARGAN的多對(duì)多說話人轉(zhuǎn)換方法,其特征在于:所述的生成器G的編碼網(wǎng)絡(luò)包括5個(gè)卷積層,生成器G的解碼網(wǎng)絡(luò)包括5個(gè)反卷積層,在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間還有6層由DenseNet連接的卷積網(wǎng)絡(luò),將卷積網(wǎng)絡(luò)的第一個(gè)卷積層的輸出與后面的五個(gè)卷積層的輸出分別拼接,將卷積網(wǎng)絡(luò)的第二個(gè)卷積層的輸出與后面四個(gè)卷積層的輸出分別拼接,將卷積網(wǎng)絡(luò)的第三個(gè)卷積層的輸出與后面三個(gè)卷積層的輸出分別拼接,將卷積網(wǎng)絡(luò)的第四個(gè)卷積層的輸出與后面兩個(gè)卷積層的輸出分別拼接,將第五個(gè)卷積層的輸出與最后一個(gè)卷積層的輸出直接拼接,從而這6個(gè)卷積層形成密集連接的卷積網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求2所述的基于DenseNet STARGAN的多對(duì)多說話人轉(zhuǎn)換方法,其特征在于:所述生成器G、鑒別器D和分類器C中的激活函數(shù)均為GELU激活函數(shù)。
4.根據(jù)權(quán)利要求2所述的基于DenseNet STARGAN的多對(duì)多說話人轉(zhuǎn)換方法,其特征在于:所述的生成器G的編碼網(wǎng)絡(luò)的5個(gè)卷積層的過濾器大小分別為3*9、4*8、4*8、3*5、9*5,步長(zhǎng)分別為1*1、2*2、2*2、1*1、9*1,過濾器深度分別為32、64、128、64、5;生成器G的解碼網(wǎng)絡(luò)的5個(gè)反卷積層的過濾器大小分別為9*5、3*5、4*8、4*8、3*9,步長(zhǎng)分別為9*1、1*1、2*2、2*2、1*1,過濾器深度分別為64、128、64、32、1;所述的鑒別器D包括5個(gè)卷積層,5個(gè)卷積層的過濾器大小分別為3*9、3*8、3*8、3*6、36*5,步長(zhǎng)分別為1*1、1*2、1*2、1*2、36*1,過濾器深度分別為32、32、32、32、1;所述的分類器C包括5個(gè)卷積層,5個(gè)卷積層的過濾器大小分別為4*4、4*4、4*4、3*4、1*4,步長(zhǎng)分別為2*2、2*2、2*2、1*2、1*2,過濾器深度分別為8、16、32、16、4。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010179723.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種基于DenseNet生成對(duì)抗網(wǎng)絡(luò)的語義圖像修復(fù)方法
- 基于SE-DenseNet深度學(xué)習(xí)框架和增強(qiáng)MR圖像的肝細(xì)胞癌自動(dòng)分級(jí)方法
- 一種通過遷移學(xué)習(xí)實(shí)現(xiàn)輕量級(jí)圖像分類的方法
- 一種基于結(jié)構(gòu)磁共振影像的大腦年齡深度學(xué)習(xí)預(yù)測(cè)系統(tǒng)
- 基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的肝臟CT圖像分割方法及裝置
- 一種用于直腸癌淋巴結(jié)轉(zhuǎn)移的智能診斷模型構(gòu)建方法
- 一種基于DenseNet與GAN的低照度圖像增強(qiáng)方法
- 一種基于DenseNet進(jìn)行激光芯片缺陷分類的方法
- 一種適用于無CP OFDM系統(tǒng)的基于DenseNet的并行干擾消除檢測(cè)方法
- 基于深度學(xué)習(xí)的非線性光學(xué)加密系統(tǒng)攻擊方法
- 基于生成對(duì)抗網(wǎng)絡(luò)正樣本增強(qiáng)的多姿態(tài)人體目標(biāo)跟蹤方法
- 基于SN的多對(duì)多說話人轉(zhuǎn)換方法
- 基于STARGAN與i向量的多對(duì)多說話人轉(zhuǎn)換方法
- 基于Perceptual STARGAN的多對(duì)多說話人轉(zhuǎn)換方法
- 基于改進(jìn)的STARGAN和x向量的多對(duì)多說話人轉(zhuǎn)換方法
- 基于Transitive STARGAN的多對(duì)多說話人轉(zhuǎn)換方法
- 基于共享訓(xùn)練的多尺度StarGAN的語音轉(zhuǎn)換方法
- 基于DenseNet STARGAN的多對(duì)多說話人轉(zhuǎn)換方法
- 基于StarGAN網(wǎng)絡(luò)模型實(shí)現(xiàn)行人重識(shí)別圖片自動(dòng)生成的方法
- 基于StarGAN的語音識(shí)別模型的防御方法
- 基于事先知識(shí)的說話者檢驗(yàn)及說話者識(shí)別系統(tǒng)和方法
- 說話人聲音的后臺(tái)學(xué)習(xí)
- 基于模型順序自適應(yīng)技術(shù)的說話人確認(rèn)系統(tǒng)創(chuàng)建方法
- 語音合成字典生成裝置和語音合成字典生成方法
- 說話人識(shí)別方法和說話人識(shí)別設(shè)備
- 語音處理的方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種基于多說話人條件下目標(biāo)說話人語音提取方法
- 一種語音處理方法、介質(zhì)及系統(tǒng)
- 語音翻譯裝置、語音翻譯方法以及記錄介質(zhì)
- 說話人識(shí)別方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)





