[發明專利]用于生成語音合成模型的方法和裝置有效
| 申請號: | 201810478000.0 | 申請日: | 2018-05-18 |
| 公開(公告)號: | CN108630190B | 公開(公告)日: | 2019-12-10 |
| 發明(設計)人: | 康永國;顧宇 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G10L13/047;G10L25/30;G06N3/08 |
| 代理公司: | 11204 北京英賽嘉華知識產權代理有限責任公司 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音合成模型 樣本文本 樣本音頻 神經網絡 基頻 訓練樣本集合 方法和裝置 信息對應 訓練樣本 機器學習 文本信息 音頻數據 輸出 申請 | ||
1.一種用于生成語音合成模型的方法,包括:
獲取訓練樣本集合,訓練樣本包括樣本文本信息、與樣本文本信息對應的樣本音頻數據和樣本音頻數據的基頻;
獲取初始深度神經網絡;
利用機器學習方法,將所述訓練樣本集合中的訓練樣本的樣本文本信息作為輸入,將與輸入的樣本文本信息對應的樣本音頻數據和樣本音頻數據的基頻作為輸出,對所述初始深度神經網絡進行訓練,將訓練后且達到預設的優化目標的所述初始深度神經網絡確定為語音合成模型;
其中,所述預設的優化目標用于確定所述初始深度神經網絡是否訓練完成;
其中,所述利用機器學習方法,將所述訓練樣本集合中的訓練樣本的樣本文本信息作為輸入,將與輸入的樣本文本信息對應的樣本音頻數據和樣本音頻數據的基頻作為輸出,對所述初始深度神經網絡進行訓練,將訓練后且達到預設的優化目標的所述初始深度神經網絡確定為語音合成模型,包括:
基于訓練樣本集合執行以下訓練步驟:將訓練樣本集合中的至少一個訓練樣本的樣本文本信息分別輸入初始深度神經網絡,得到所述至少一個樣本文本信息中的每個樣本文本信息對應的音頻數據和音頻數據的基頻;將所述至少一個樣本文本信息中的每個樣本文本信息對應的音頻數據和音頻數據的基頻與對應的樣本音頻數據和樣本音頻數據的基頻進行比較;根據比較結果確定初始深度神經網絡是否達到預設的優化目標;響應于確定初始深度神經網絡達到優化目標,將初始深度神經網絡確定為語音合成模型。
2.根據權利要求1所述的方法,其中,訓練得到語音合成模型的步驟還包括:
響應于確定初始深度神經網絡未達到優化目標,調整初始深度神經網絡的參數,以及使用未用過的訓練樣本組成訓練樣本集合,使用調整后的初始深度神經網絡作為初始深度神經網絡,繼續執行所述訓練步驟。
3.一種語音合成方法,包括:
獲取待處理文本信息;
將所述待處理文本信息輸入至語音合成模型,生成所述待處理文本信息對應的音頻數據,其中,所述語音合成模型是按照如權利要求1-2中任一所述的方法生成的。
4.一種用于生成語音合成模型的裝置,包括:
訓練樣本集合獲取單元,被配置成獲取訓練樣本集合,訓練樣本包括樣本文本信息、與樣本文本信息對應的樣本音頻數據和樣本音頻數據的基頻;
網絡獲取單元,被配置成獲取初始深度神經網絡;
訓練單元,被配置成利用機器學習方法,將所述訓練樣本集合中的訓練樣本的樣本文本信息作為輸入,將與輸入的樣本文本信息對應的樣本音頻數據和樣本音頻數據的基頻作為輸出,對所述初始深度神經網絡進行訓練,將訓練后且達到預設的優化目標的所述初始深度神經網絡確定為語音合成模型;
其中,所述預設的優化目標用于確定所述初始深度神經網絡是否訓練完成;
其中,所述訓練單元進一步被配置成:
基于訓練樣本集合執行以下訓練步驟:將訓練樣本集合中的至少一個訓練樣本的樣本文本信息分別輸入初始深度神經網絡,得到所述至少一個樣本文本信息中的每個樣本文本信息對應的音頻數據和音頻數據的基頻;將所述至少一個樣本文本信息中的每個樣本文本信息對應的音頻數據和音頻數據的基頻與對應的樣本音頻數據和樣本音頻數據的基頻進行比較;根據比較結果確定初始深度神經網絡是否達到預設的優化目標;響應于確定初始深度神經網絡達到優化目標,將初始深度神經網絡確定為語音合成模型。
5.根據權利要求4所述的裝置,其中,所述訓練單元進一步被配置成:
響應于確定初始深度神經網絡未達到優化目標,調整初始深度神經網絡的參數,以及使用未用過的訓練樣本組成訓練樣本集合,使用調整后的初始深度神經網絡作為初始深度神經網絡,繼續執行所述訓練步驟。
6.一種語音合成裝置,包括:
待處理文本信息獲取單元,被配置成獲取待處理文本信息;
生成單元,被配置成將所述待處理文本信息輸入至語音合成模型,生成所述待處理文本信息對應的音頻數據,其中,所述語音合成模型是按照如權利要求1-2中任一所述的方法生成的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810478000.0/1.html,轉載請聲明來源鉆瓜專利網。





