[發明專利]一種語音合成模型的訓練方法及裝置有效
| 申請號: | 202110259482.2 | 申請日: | 2021-03-10 |
| 公開(公告)號: | CN113053353B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 黃選平;馬達標 | 申請(專利權)人: | 度小滿科技(北京)有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04;G10L13/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 尹秀 |
| 地址: | 100193 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 合成 模型 訓練 方法 裝置 | ||
本發明實施例中一種語音合成模型的訓練方法及裝置,包括:對歷史語音合成模型進行訓練,得到多說話人模型;獲取當前訓練數據中的當前說話人ID和當前輸入文本,其中,當前輸入文本的數據量少于多說話人模型在訓練過程中歷史輸入文本的數據量,當前輸入文本的音素以韻母為單位;基于多說話人模型、當前說話人ID和當前輸入文本對當前語音合成模型進行訓練。上述的訓練過程中,由于多說話人模型已經預先經過訓練可以提高訓練過程中的準確度,即使在輸入文本數據量減少時,由于輸入文本以韻母為單位,輸入文本的音素數量不會減少,進一步保證了語音識別的精度,避免了現有技術中由于輸入文本包含的因素音素特征少,導致語音合成的精度低的問題。
技術領域
本發明涉及智能語音技術領域,尤其涉及一種語音合成模型的訓練方法及裝置。
背景技術
語音合成是從文本到語音的過程,文本輸入到聲學模型得到聲學特征,再輸入到合成器,得到音頻,其中,現有技術中采用高并行聲學模型FPUTS(Fully Parallel UFANS-based End-to-End Text-to-Speech System)進行語音合成,FTPUS聲學模型的示意圖如圖1所示,其中,編碼器,對齊模塊,解碼器均為神經網絡構成。一般的生成音頻過程為:從說話人的ID(例如0-100)得到說話人矢量(是一個N維的向量,不同說話人有不同的說話人矢量);說話人矢量和文本輸入編碼器進行編碼;說話人和文本輸入對齊模塊得到音頻的發音時長信息(這個模塊決定了最終音頻的發音時長,說話語速等);發音時間信息以及編碼器出來的編碼進入到解碼器進行解碼,得到最終音頻。
FPTUS模型需要預先進行訓練,訓練完成后,才可以進行語音識別,針對PTPUS的訓練過程如圖2所示,第一步是訓練對齊模塊。見圖2(a)。此時模型主要結構為說話人矢量,編碼器,對齊模塊和一個結構非常簡單的解碼器(解碼器結構簡單對訓練對齊模塊非常重要)。配合數據進行訓練得到訓練好的對齊模塊;第二步是訓練說話人矢量,編碼器和解碼器。見圖2(b),模型主要構成為編碼器,從第一步中訓練好的對齊模塊,(復雜以及最終的)解碼器。此處對齊模塊固定,不參與訓練。
發明人對FPTUS模型的訓練過程進行研究發現,當輸入文本較短時,由于輸入文本的數據量少,在以字為單位劃分音素時,輸入文本包含的音素特征少,導致訓練過程中,語音合成的精度低。
發明內容
有鑒于此,本發明提供了一種語音合成模型的訓練方法及裝置,用以解決現有技術中對FPTUS模型的訓練過程中,當輸入文本較短時,由于輸入文本的數據量少,在以字為單位劃分音素時,輸入文本包含的音素特征少,導致語音合成的精度低的問題。具體方案如下:
一種語音合成模型的訓練方法,包括:
對歷史語音合成模型進行訓練,得到多說話人模型;
獲取當前訓練數據中的當前說話人ID和當前輸入文本,其中,所述當前輸入文本的數據量少于所述多說話人模型在訓練過程中歷史輸入文本的數據量,所述當前輸入文本的音素以韻母為單位;
基于所述多說話人模型、所述當前說話人ID和所述當前輸入文本對當前語音合成模型進行訓練。
上述的方法,可選的,對歷史語音合成模型進行訓練,得到多說話人模型,其中,所述歷史語音合成模型包括:歷史編碼器、歷史解碼器和歷史對齊模塊,所述解碼器包括第一歷史解碼器和第二歷史解碼器;所述多說話人模型包括:第一說話人模型和第二說話人模型,訓練過程包括:
獲取訓練數據中的歷史說話人ID和歷史輸入文本;
基于所述歷史說話人ID,確定歷史說話人矢量,基于所述歷史說話人矢量,所述歷史輸入文本,所述歷史編碼器和所述歷史第一解碼器對所述歷史對齊模塊進行訓練,得到第一說話人模型,其中,所述第一說話人模型中包括:歷史目標對齊模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于度小滿科技(北京)有限公司,未經度小滿科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110259482.2/2.html,轉載請聲明來源鉆瓜專利網。





