[發明專利]多語言語音合成方法、系統、設備和存儲介質在審
| 申請號: | 202111131972.0 | 申請日: | 2021-09-26 |
| 公開(公告)號: | CN113870834A | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 郭洋;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 馮健良 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 語音 合成 方法 系統 設備 存儲 介質 | ||
本發明公開了一種多語言語音合成方法、系統、設備和存儲介質,可應用于人工智能技術領域。本發明方法包括:獲取多種類型的語言文本和語言編號,每種語言文本對應一種所述語言編號;將多種類型的語言編號輸入語言編碼模型,生成與語言文本對應的參數向量;將多種類型的語言文本輸入文本編碼模型,從語言編碼模型提取語言文本對應的參數向量;每個文本編碼組根據參數向量對語言文本進行編碼,得到語言文本的輸出向量;將語音合成參數信息和輸出向量進行拼接,得到目標語言向量;對目標語言向量進行梅爾譜解碼,得到梅爾譜圖;將梅爾譜圖轉換成目標語音。本發明無需依賴一個人多種語言的能力,即能提高多語言語音轉換結果的準確率。
技術領域
本發明涉及人工智能技術領域,尤其是一種多語言語音合成方法、系統、設備和存儲介質。
背景技術
端到端語音合成已經能夠實時產生聽感自然的似人語音。當擴展這些端到端的語音合成模型以應用于多種語言時,擴展后的語音合成模型無法較好地進行多種語言語音合成,例如在多種語言之間的訓練不平衡時,語音合成模型無法將訓練量較少的語言轉換成語音。相關技術中,多語言語音合成主要采取遷移學習、知識共享和語音克隆三個思路。遷移學習是通過遷移高質量的數據語言訓練得到的合成模型以訓練低質量數據資源對應的語音合成模型。知識共享考慮使用多語言數據聯合訓練單一的共享合成模型。語音克隆需要同一說話人錄制多種語言的語音,即跨語言語音克隆。而上述三種多語言語音合成方式只同時支持2-3種語言,或需要大量訓練數據。
發明內容
本發明的目的在于至少一定程度上解決現有技術中存在的技術問題之一。
為此,本發明實施例提供了一種多語言語音合成方法、系統、設備和存儲介質,無需大量訓練數據,即能提高多語言語音轉換結果的準確率。
一方面,本發明實施例提供了一種多語言語音合成方法,包括以下步驟:
獲取多種類型的語言文本和語言編號,每種所述語言文本對應一種所述語言編號;
將多種類型的所述語言編號輸入語言編碼模型,以生成與所述語言文本對應的參數向量;
將多種類型的所述語言文本輸入文本編碼模型,以提取所述語言文本對應的所述參數向量,其中,所述文本編碼模型包括多個文本編碼組;
每個所述文本編碼組根據所述參數向量對所述語言文本進行編碼,得到所述語言文本的輸出向量;
將預先獲取的語音合成參數信息和所述輸出向量進行拼接,得到目標語言向量;
對所述目標語言向量進行梅爾譜解碼,得到梅爾譜圖;
將所述梅爾譜圖轉換成目標語音。
另一方面,本發明實施例提供了一種多語言語音合成系統,包括:
獲取模塊,用于獲取多種類型的語言文本和語言編號,每種所述語言文本對應一種所述語言編號;
第一輸入模塊,用于將多種類型的所述語言編號輸入語言編碼模型,以生成與所述語言文本對應的參數向量;
第二輸入模塊,用于將多種類型的所述語言文本輸入文本編碼模型,以提取所述語言文本對應的所述參數向量,其中,所述文本編碼模型包括多個文本編碼組;
編碼模塊,用于每個所述文本編碼組根據所述參數向量對所述語言文本進行編碼,得到所述語言文本的輸出向量;
拼接模塊,用于將預先獲取的語音合成參數信息和所述輸出向量進行拼接,得到目標語言向量;
解碼模塊,用于對所述目標語言向量進行梅爾譜解碼,得到梅爾譜圖;
轉換模塊,用于將所述梅爾譜圖轉換成目標語音。
另一方面,本發明實施例提供了一種多語言語音合成設備,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111131972.0/2.html,轉載請聲明來源鉆瓜專利網。





