[發明專利]基于半平行語料的語音轉換方法和系統有效
| 申請號: | 202011460130.5 | 申請日: | 2020-12-11 |
| 公開(公告)號: | CN112530403B | 公開(公告)日: | 2022-08-26 |
| 發明(設計)人: | 吳夢玥;徐志航;陳博 | 申請(專利權)人: | 上海交通大學;光明日報社 |
| 主分類號: | G10L13/033 | 分類號: | G10L13/033;G10L13/10;G10L15/06;G10L21/013;G06N20/00 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 顧嘉運 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 平行 語料 語音 轉換 方法 系統 | ||
1.一種用于使用語音轉換模型進行語音轉換的方法,包括:
1)訓練所述語音轉換模型,包括:
在TTS預訓練階段,通過使用說話人的文本和聲學特征數據訓練TTS編碼器、VC解碼器和參考編碼器來確定所述VC解碼器和參考編碼器的初始化網絡參數;
在VC預訓練階段,對所述VC解碼器和所述參考編碼器的網絡參數進行初始化并固定,并使用說話人的聲學特征訓練VC編碼器以確定所述VC編碼器的初始化網絡參數;以及
在VC訓練階段,對所述VC編碼器的網絡參數進行初始化,并使用原始說話人和目標說話人的聲學特征訓練所述VC編碼器、所述VC解碼器和所述參考編碼器以確定經預訓練的所述VC編碼器、所述VC解碼器和所述參考編碼器的最終網絡參數;
2)使用訓練的語音轉換模型將原始說話人信息轉換為目標說話人信息;
其中,在所述TTS預訓練階段:
隨機初始化TTS編碼器、VC解碼器、參考編碼器的網絡參數;
通過所述TTS編碼器將說話人的文本序列編碼成TTS編碼器輸出;
通過所述參考編碼器將基于所述說話人的參考音頻的參考特征編碼成說話人嵌入信息,并將所述說話人嵌入信息與所述TTS編碼器輸出進行拼接;
通過時長模塊對經拼接的TTS編碼器輸出進行升采樣以獲得經升采樣的TTS編碼器輸出;
將經升采樣的TTS編碼器輸出輸入到所述VC解碼器以解碼成預測結果;以及
計算所述說話人的聲學特征和所述預測結果之間的誤差,反傳梯度,并更新所述VC解碼器和所述參考編碼器的網絡參數直至收斂;
其中,在所述VC預訓練階段:
使用在TTS預訓練階段中訓練的所述VC解碼器和所述參考編碼器的所述網絡參數進行網絡初始化并固定,并隨機初始化所述VC編碼器的網絡參數;
通過所述VC編碼器對說話人的聲學特征進行編碼,并使用時長模塊對編碼結果進行降采樣以獲得經降采樣的VC編碼器輸出;
通過所述參考編碼器將基于所述說話人的參考音頻的參考特征編碼成說話人嵌入信息,并將所述說話人嵌入信息與所述經降采樣的VC編碼器輸出進行拼接;
通過時長模塊對經拼接的VC編碼器輸出進行升采樣以獲得經升采樣的VC編碼器輸出;
將經升采樣的VC編碼器輸出輸入到所述VC解碼器以解碼成另一預測結果;以及
計算所述說話人的聲學特征和所述另一預測結果之間的誤差,反傳梯度,并更新所述VC編碼器的網絡參數直至收斂;
其中,在所述VC訓練階段:
使用在VC預訓練階段中訓練的所述VC編碼器的所述網絡參數進行網絡初始化;
通過所述VC編碼器對原始說話人的聲學特征進行編碼,并使用時長模塊對編碼結果進行降采樣以獲得經降采樣的VC編碼器輸出;
通過所述參考編碼器將基于目標說話人的參考音頻的參考特征編碼成說話人嵌入信息,并將所述說話人嵌入信息與所述經降采樣的VC編碼器輸出進行拼接;
通過時長模塊對經拼接的VC編碼器輸出進行升采樣以獲得經升采樣的VC編碼器輸出;
將經升采樣的VC編碼器輸出輸入到所述VC解碼器以解碼成預測目標結果;以及
計算所述目標說話人的聲學特征和所述預測目標結果之間的誤差,反傳梯度,并更新所述VC編碼器、所述VC解碼器以及所述參考編碼器的網絡參數直至收斂。
2.如權利要求1所述的方法,其特征在于,在所述TTS預訓練階段還包括下述步驟:
通過將所述說話人的文本序列輸入到時長預測網絡以輸出時長預測值;
計算時長信息和時長預測值之間的誤差,反傳梯度,并更新時長預測模型的網絡參數直至收斂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學;光明日報社,未經上海交通大學;光明日報社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011460130.5/1.html,轉載請聲明來源鉆瓜專利網。





