[發明專利]一種可在線訓練個性化音色庫的語音合成方法和系統有效
| 申請號: | 202110271444.9 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN113035169B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 牛歌 | 申請(專利權)人: | 北京帝派智能科技有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04;G10L13/08 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 郭放;許偉群 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 在線 訓練 個性化 音色庫 語音 合成 方法 系統 | ||
1.一種可在線訓練個性化音色庫的語音合成方法,其特征在于,包括:
使用至少兩組語料訓練預訓練語音合成模型,每一組語料包括文本及其錄制語音,每一組語料的錄制語音具有一種音色,不同組語料中的錄制語音的音色不同;
使用目標發音人的語料基于所述預訓練語音合成模型訓練語音合成模型,所述目標發音人的語料包括至少一句文本及由目標發音人發音錄制的所述至少一句文本的語音;
將所述語音合成模型部署在語音合成系統中,以使得所述語音合成系統用于根據輸入的文本合成目標音色的語音,所述目標音色為目標發音人的音色;
其中,所述預訓練語音合成模型和所述語音合成模型具有相同的模型結構;
所述語音合成模型從輸入到輸出依次包括:第一詞嵌入層、編碼器、重復編組層、解碼器和后處理網絡;所述第一詞嵌入層、所述編碼器、所述重復編組層、所述解碼器和所述后處理網絡依次耦合,以形成數據流;所述語音合成模型還包括發音單元嵌入層,所述發音單元嵌入層的輸出耦合至所述數據流中;
所述使用至少兩組語料訓練預訓練語音合成模型,包括:以所述至少兩組語料中的文本作為所述第一詞嵌入層的輸入信號,以每一組語料對應的音色標識作為發音單元嵌入層的輸入信號,不同組語料對應的音色標識不同,以所述錄制語音對應的頻譜信號作為所述后處理網絡輸出的監督信號,訓練所述預訓練語音合成模型;以及,預留至少一個音色標識作為目標發音人的音色標識;
所述使用目標發音人的語料基于所述預訓練語音合成模型訓練語音合成模型,包括:以所述目標發音人的至少一句文本作為所述第一詞嵌入層的輸入信號,以所述目標發音人的音色標識作為所述發音單元嵌入層的輸入信號,以所述目標發音人錄制的語音作為所述后處理網絡輸出的監督信號,在所述預訓練語音合成模型的基礎上訓練所述語音合成模型。
2.根據權利要求1所述的方法,其特征在于,所述發音單元嵌入層的輸出耦合至所述數據流中的方式包括以下任意一種或多種:
所述發音單元嵌入層的輸出耦合至所述編碼器的輸入;
所述發音單元嵌入層的輸出耦合至所述解碼器的輸入;
所述發音單元嵌入層的輸出耦合至所述處理網絡的輸入。
3.根據權利要求1所述的方法,其特征在于,還包括:使用目標發音人的語料訓練所述語音合成模型時的迭代次數小于等于預設閾值。
4.根據權利要求1所述的方法,其特征在于,當所述語音合成模型在訓練中的連續兩個迭代的驗證數據上的模型損失未低于歷次迭代的最低損失時,結束訓練所述語音合成模型;所述驗證數據包括所述目標發音人的語料中的至少一句文本。
5.根據權利要求1-4任一項所述的方法,其特征在于,所述使用目標發音人的語料訓練所述語音合成模型,還包括:
固化或者凍結所述語音合成模型的部分參數,包括使所述部分參數在所述語音合成模型的訓練過程中不被調整,也不進行梯度計算,所述部分參數不包括所述發音單元嵌入層的參數;
和/或者,
設置所述發音單元嵌入層的訓練優先級大于所述語音合成模型的其他部分的優先級。
6.一種語音合成系統,其特征在于,包括:
預訓練模塊,用于使用至少兩組語料訓練預訓練語音合成模型,每一組語料包括文本及其錄制語音,每一組語料的錄制語音具有一種音色,不同組語料中的錄制語音的音色不同;
訓練模塊,用于使用目標發音人的語料基于所述預訓練語音合成模型訓練語音合成模型,所述目標發音人的語料包括至少一句文本及由目標發音人發音錄制的所述至少一句文本的語音;
部署模塊,用于將所述語音合成模型部署在語音合成系統中,以使得所述語音合成系統用于根據輸入的文本合成目標音色的語音,所述目標音色為目標發音人的音色;
其中,所述預訓練語音合成模型和所述語音合成模型具有相同的模型結構;
所述語音合成模型從輸入到輸出依次包括:第一詞嵌入層、編碼器、重復編組層、解碼器和后處理網絡;所述第一詞嵌入層、所述編碼器、所述重復編組層、所述解碼器和所述后處理網絡依次耦合,以形成數據流;所述語音合成模型還包括發音單元嵌入層,所述發音單元嵌入層的輸出耦合至所述數據流中;
所述預訓練模塊,具體用于以所述至少兩組語料中的文本作為所述第一詞嵌入層的輸入信號,以所述錄制語音對應的頻譜信號作為所述后處理網絡輸出的監督信號,以每一組語料對應的音色標識作為發音單元嵌入層的輸入信號,不同組語料對應的音色標識不同,訓練所述預訓練語音合成模型;以及,預留至少一個音色標識作為目標發音人的音色標識;
所述訓練模塊,具體用于以所述目標發音人的至少一句文本作為所述第一詞嵌入層的輸入信號,以所述目標發音人的音色標識作為所述發音單元嵌入層的輸入信號,以所述目標發音人錄制的語音作為所述后處理網絡輸出的監督信號,在所述預訓練語音合成模型的基礎上訓練所述語音合成模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京帝派智能科技有限公司,未經北京帝派智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110271444.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種地下結構的抗浮結構及其施工方法
- 下一篇:一種骨質疏松防跌倒裝置





