[發明專利]基于共享訓練的多尺度StarGAN的語音轉換方法有效
| 申請號: | 202010168942.6 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111462768B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 李燕萍;沙淮;徐伶俐 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L19/00;G10L13/04;G10L25/18;G10L25/48;G06N3/094;G06N3/0464;G06N3/047 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 劉文聞 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 共享 訓練 尺度 stargan 語音 轉換 方法 | ||
1.一種基于共享訓練的多尺度StarGAN的語音轉換方法,其特征在于:包括訓練階段和轉換階段,所述訓練階段包括以下步驟:
(1.1)獲取訓練語料,訓練語料由多名說話人的語料組成,包含源說話人和目標說話人;
(1.2)將所述的訓練語料通過WORLD語音分析/合成模型,提取出各說話人語句的頻譜特征x、基頻特征log?f0;
(1.3)將源說話人的頻譜特征xs、源說話人標簽cs和目標說話人標簽ct,輸入到Multi-Scale?StarGAN網絡進行訓練,所述的Multi-Scale?StarGAN網絡由生成器G、鑒別器D和分類器C組成,所述的生成器G由預編碼網絡、Multi-Scale模塊和解碼網絡構成,鑒別器D和分類器C共享Share-Block,經Share-Block編碼后,再進入兩個下層網絡分別實現鑒別器D和分類器C的功能,所述Share-Block為鑒別器D和分類器C的共享模塊;
(1.4)訓練過程先訓練分類器C和Share-Block,后訓練鑒別器D和Share-Block,最后訓練生成器G,使生成器G的損失函數、鑒別器D的損失函數、分類器C的損失函數盡量小,直至設置的迭代次數,得到訓練好的基于Share-Learning的Multi-Scale?StarGAN網絡;
(1.5)構建從源說話人的語音基頻log?f0s到目標說話人的語音基頻log?f0t的基頻轉換函數;
所述轉換階段包括以下步驟:
(2.1)將待轉換語料中源說話人的語音通過WORLD語音分析/合成模型提取出頻譜特征xs′、非周期性特征和基頻log?f0s′;
(2.2)將上述源說話人頻譜特征xs′、目標說話人標簽特征ct′輸入(1.4)中訓練好的基于Share-Learning的Multi-Scale?StarGAN網絡,重構出目標說話人頻譜特征xtc′;
(2.3)通過(1.5)得到的基頻轉換函數,將(2.1)中提取出的源說話人基頻log?f0s′轉換為目標說話人的基頻log?f0t′;
(2.4)將(2.2)中得到的目標說話人頻譜特征xtc′、(2.3)中得到的目標說話人的基頻log?f0t′和(2.1)中提取的非周期性特征通過WORLD語音分析/合成模型,合成得到轉換后的說話人語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010168942.6/1.html,轉載請聲明來源鉆瓜專利網。





