[發明專利]一種少語料的語音模型訓練及合成方法有效
| 申請號: | 202110561416.0 | 申請日: | 2021-05-22 |
| 公開(公告)號: | CN112992118B | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 曹艷艷;陳佩云 | 申請(專利權)人: | 成都啟英泰倫科技有限公司 |
| 主分類號: | G10L13/10 | 分類號: | G10L13/10;G10L13/02;G10L13/033;G10L19/18 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610041 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語料 語音 模型 訓練 合成 方法 | ||
1.一種少語料的語音模型訓練及合成方法,包括模型訓練及語音合成;
其特征在于,所述模型訓練包括如下步驟:
S1. 收集訓練樣本集,所述訓練樣本集包括多個音色的樣本,每一樣本包括文本及對應的音頻文件,其中至少1個音色的樣本數據符合基準音色標準,所述基準音色標準為語料數據樣本數據量大且質量高;
S2. 對各個樣本的文本進行音素化處理,得到音素化文本;對各個樣本的音頻文件采用相同方法提取梅爾特征;在符合基準音色標準的樣本中選擇一個作為基準音色樣本;
S3. 對語音模型進行訓練,得到泛化模型;訓練方法為:所有樣本的音素化文本作為輸入,對應音頻的梅爾特征作為輸出,訓練語音模型;
S4. 將基準音色樣本在泛化模型基礎上做微調訓練,得到基準模型;
S5. 將訓練樣本集的所有樣本按音色分類,訓練音色轉化的轉換模型,每一類音色對應一個轉換模型;
S6. 使用訓練樣本集的所有樣本訓練泛化聲碼器模型,然后使用每個音色對應的樣本分別在此泛化聲碼器模型上進行微調訓練,得到每個音色對應的個性聲碼器模型。
2.根據權利要求1所述的少語料的語音模型訓練及合成方法,其特征在于:所述步驟S3中的語音模型為tacotron、fastspeech模型中任意一種。
3.根據權利要求1所述的少語料的語音模型訓練及合成方法,其特征在于:所述步驟S5中訓練使用的轉換模型為stargan-vc模型。
4.根據權利要求1所述的少語料的語音模型訓練及合成方法,其特征在于:所述基準音色標準為樣本的音頻數據時間長度大于10小時。
5.根據權利要求1所述的少語料的語音模型訓練及合成方法,其特征在于,樣本的音頻文件時間長度大于10分鐘。
6.根據權利要求1所述的少語料的語音模型訓練及合成方法,其特征在于,訓練樣本集中各個樣本的文本完全不同。
7.根據權利要求1所述的少語料的語音模型訓練及合成方法,其特征在于,所述語音合成包括如下步驟:
S7. 將待合成文本進行預處理得到音素化文本,并輸入基準模型,得到待合成文本基準音色的梅爾特征;
S8. 將步驟S7得到的梅爾特征送入目標音色對應的轉換模型轉化,得到目標音色的梅爾特征;
S9. 將步驟S7中目標音色的梅爾特征送入對應音色的個性聲碼器模型,從而合成出指定音色的聲音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都啟英泰倫科技有限公司,未經成都啟英泰倫科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110561416.0/1.html,轉載請聲明來源鉆瓜專利網。





