[發明專利]語音合成模型生成方法和裝置有效
| 申請號: | 201710897311.6 | 申請日: | 2017-09-28 |
| 公開(公告)號: | CN107452369B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 李昊 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L13/00 | 分類號: | G10L13/00;G10L13/08;G10L25/30 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 模型 生成 方法 裝置 | ||
1.一種語音合成模型生成方法,其特征在于,所述方法包括:
獲取用于對語音合成模型對應的神經網絡進行訓練的文本的文本特征和文本對應的語音的聲學特征,其中,所述聲學特征中的用于訓練的文本對應的語音的基頻數據通過基頻數據提取模型提取,所述基頻數據提取模型基于利用包含的每一幀語音均對應有基頻數據的語音預先對基頻數據提取模型對應的神經網絡進行訓練而生成;
利用所述文本的文本特征和文本對應的語音的聲學特征對語音合成模型對應的神經網絡進行訓練;
所述方法還包括:
獲取用于對基頻數據提取模型對應的神經網絡進行訓練的語音;
提取所述用于對基頻數據提取模型對應的神經網絡進行訓練的語音的基頻數據;
基于提取出的所述用于對基頻數據提取模型對應的神經網絡進行訓練的語音的基頻數據,確定所述用于對基頻數據提取模型對應的神經網絡進行訓練的語音中滿足以下條件的語音段:包含的每一幀語音均對應有基頻數據;
提取出滿足條件的語音段中的每一幀語音的譜參數,生成譜參數序列;
將所述譜參數序列作為所述基頻數據提取模型對應的神經網絡的輸入,將包含滿足條件的語音段中的每一幀語音對應的基頻數據的基頻數據序列作為所述基頻數據提取模型對應的神經網絡的輸出,對所述基頻數據提取模型對應的神經網絡進行訓練。
2.根據權利要求1所述的方法,其特征在于,所述基頻數據提取模型對應的神經網絡的類型為遞歸神經網絡。
3.一種語音合成模型生成裝置,其特征在于,所述裝置包括:
獲取單元,配置用于獲取用于對語音合成模型對應的神經網絡進行訓練的文本的文本特征和文本對應的語音的聲學特征,其中,所述聲學特征中的用于訓練的文本對應的語音的基頻數據通過基頻數據提取模型提取,所述基頻數據提取模型基于利用包含的每一幀語音均對應有基頻數據的語音預先對基頻數據提取模型對應的神經網絡進行訓練而生成;
訓練單元,配置用于利用所述文本的文本特征和文本對應的語音的聲學特征對語音合成模型對應的神經網絡進行訓練;
所述裝置還包括:
基頻數據提取模型訓練單元,配置用于獲取用于對基頻數據提取模型對應的神經網絡進行訓練的語音;提取所述用于對基頻數據提取模型對應的神經網絡進行訓練的語音的基頻數據;基于提取出的所述用于對基頻數據提取模型對應的神經網絡進行訓練的語音的基頻數據,確定所述用于對基頻數據提取模型對應的神經網絡進行訓練的語音中滿足以下條件的語音段:包含的每一幀語音均對應有基頻數據;
基頻數據提取模型訓練單元進一步配置用于:提取出滿足條件的語音段中的每一幀語音的譜參數,生成譜參數序列;將所述譜參數序列作為基頻數據提取模型對應的神經網絡的輸入,將包含滿足條件的語音段中的每一幀語音對應的基頻數據的基頻數據序列作為所述基頻數據提取模型對應的神經網絡的輸出,對所述基頻數據提取模型對應的神經網絡進行訓練。
4.根據權利要求3所述的裝置,其特征在于,所述基頻數據提取模型對應的神經網絡的類型為遞歸神經網絡。
5.一種電子設備,其特征在于,包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器實現如權利要求1-2中任一所述的方法。
6.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-2中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710897311.6/1.html,轉載請聲明來源鉆瓜專利網。





