[發明專利]基于Transitive STARGAN的多對多說話人轉換方法在審
| 申請號: | 202010168932.2 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111429893A | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 李燕萍;何錚韜 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/16;G10L15/18;G10L15/06 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 劉文聞 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 transitive stargan 說話 轉換 方法 | ||
1.一種基于Transitive STARGAN的多對多說話人轉換方法,其特征在于,包括訓練階段和轉換階段,所述訓練階段包括以下步驟:
(1.1)獲取訓練語料,訓練語料由多名說話人的語料組成,包含源說話人和目標說話人;
(1.2)將所述的訓練語料通過WORLD語音分析/合成模型,提取出各說話人語音的頻譜特征x、非周期性特征以及基頻特征;
(1.3)將源說話人的頻譜特征xs、目標說話人的頻譜特征xt、源說話人標簽cs以及目標說話人標簽ct,輸入到Transitive STARGAN網絡進行訓練,所述的Transitive STARGAN網絡由生成器G、鑒別器D和分類器C組成,所述的生成器G由編碼網絡和解碼網絡構成,在編碼網絡與解碼網絡之間搭建用于優化生成器網絡結構的若干層TransNet;
(1.4)訓練過程使生成器G的損失函數、鑒別器D的損失函數、分類器C的損失函數盡量小,直至設置的迭代次數,從而得到訓練好的Transitive STARGAN網絡;
(1.5)構建從源說話人的語音基頻到目標說話人的語音基頻的基頻轉換函數;
所述轉換階段包括以下步驟:
(2.1)將待轉換語料中源說話人的語音通過WORLD語音分析/合成模型提取出頻譜特征xs′、非周期性特征和基頻特征;
(2.2)將上述源說話人頻譜特征xs′、目標說話人標簽特征ct′輸入步驟(1.4)中訓練好的Transitive STARGAN網絡,得到目標說話人頻譜特征xtc′;
(2.3)通過步驟(1.5)得到的基頻轉換函數,將步驟(2.1)中提取出的源說話人基頻特征轉換為目標說話人的基頻特征;
(2.4)將步驟(2.2)中生成的目標說話人頻譜特征xtc′、步驟(2.3)中得到的目標說話人的基頻特征和步驟(2.1)中提取的非周期性特征通過WORLD語音分析/合成模型,合成得到轉換后的說話人語音。
2.根據權利要求1所述的基于Transitive STARGAN的多對多說話人轉換方法,其特征在于:所述的生成器G的編碼網絡包括5個卷積層,生成器G的解碼網絡包括5個反卷積層,所搭建的TransNet為4層,具體為,將編碼網絡的第一卷積層的輸出與解碼網絡的第四卷積層的輸出拼接,然后輸入到解碼網絡的第五卷積層;將編碼網絡的第二卷積層的輸出與解碼網絡的第三卷積層的輸出拼接,然后輸入到解碼網絡的第四卷積層;將編碼網絡的第三卷積層的輸出與解碼網絡的第二卷積層的輸出拼接,然后輸入到解碼網絡的第三卷積層;將編碼網絡的第四卷積層的輸出與解碼網絡的第一卷積層的輸出拼接,然后輸入到解碼網絡的第二卷積層。
3.根據權利要求2所述的基于Transitive STARGAN的多對多說話人轉換方法,其特征在于:所述的生成器G的編碼網絡的5個卷積層的過濾器大小分別為3*9、4*8、4*8、3*5、9*5,步長分別為1*1、2*2、2*2、1*1、9*1,過濾器深度分別為32、64、128、64、5;生成器G的解碼網絡的5個反卷積層的過濾器大小分別為9*5、3*5、4*8、4*8、3*9,步長分別為9*1、1*1、2*2、2*2、1*1,過濾器深度分別為64、128、64、32、1;所述的鑒別器D包括5個卷積層,5個卷積層的過濾器大小分別為3*9、3*8、3*8、3*6、36*5,步長分別為1*1、1*2、1*2、1*2、36*1,過濾器深度分別為32、32、32、32、1;所述的分類器C包括5個卷積層,5個卷積層的過濾器大小分別為4*4、4*4、4*4、3*4、1*4,步長分別為2*2、2*2、2*2、1*2、1*2,過濾器深度分別為8、16、32、16、4。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010168932.2/1.html,轉載請聲明來源鉆瓜專利網。





