[發明專利]語音合成模型的訓練方法、裝置、存儲介質以及電子設備在審
| 申請號: | 202011135518.8 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112309365A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 吳雨璇;舒景辰;梁光;周鼎皓;楊惠 | 申請(專利權)人: | 北京大米科技有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/033;G10L13/08;G10L15/02;G10L15/06 |
| 代理公司: | 北京恒博知識產權代理有限公司 11528 | 代理人: | 張曉芳 |
| 地址: | 100025 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 模型 訓練 方法 裝置 存儲 介質 以及 電子設備 | ||
1.一種語音合成模型的訓練方法,其特征在于,所述方法包括:
獲取目標用戶的第一語音數據;
基于說話人分類網絡在語音數據集合中確定與所述第一語音數據相似度最大的第二語音數據;
基于所述第二語音數據對初始語音合成模型進行訓練得到目標語音合成模型。
2.根據權利要求1所述的方法,其特征在于,所述基于說話人分類網絡在語音數據集合中確定與所述第一語音數據相似度最高的第二語音數據,包括:
基于所述說話人分類網絡將所述第一語音數據進行處理得到多個第一特征向量,確定所述多個第一特征向量的特征向量均值;
基于所述說話人分類網絡計算所述語音數據集合包括的多種不同說話風格的語音數據各自對應的第二特征向量均值;
在多個第二特征向量均值中確定與所述特征向量均值相似度最大的第二特征向量均值;
將所述最大相似度值的第二特征向量均值對應的語音數據作為第二語音數據。
3.根據權利要求1所述的方法,其特征在于,所述初始語音合成模型預先經過訓練,其訓練過程包括:
創建樣本文本數據集合和樣本語音數據集合;
對所述樣本文本數據集合包括的多個樣本用戶的樣本文本數據進行編碼解碼處理得到各個樣本用戶的樣本文本數據對應的梅爾頻譜;
計算所述各個樣本用戶的樣本文本數據對應的梅爾頻譜與所述各個樣本用戶的樣本語音數據對應的梅爾頻譜的損失值;
在所述損失值小于或等于預設閾值時生成所述初始語音合成模型。
4.根據權利要求3所述的方法,其特征在于,所述對所述樣本文本數據集合包括的多個樣本用戶的樣本文本數據進行編碼解碼處理得到各個樣本用戶的樣本文本數據對應的梅爾頻譜,包括:
對所述多個樣本用戶的樣本文本數據進行編碼處理得到音素特征;
確定所述各個樣本用戶的語音數據對應的音色特征和情緒特征;
基于所述音素特征、所述音色特征和所述情緒特征,得到所述各個樣本用戶的樣本文本數據對應的梅爾頻譜。
5.根據權利要求4所述的方法,其特征在于,所述確定所述各個樣本用戶的語音數據對應的情緒特征,包括:
對所述樣本用戶的語音數據進行情緒識別得到所述情緒特征;或
基于所述樣本文本數據中的情緒標識確定所述情緒特征。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取目標用戶的真人語音數據,基于所述目標語音合成模型對所述真人語音數據進行語音合成處理,得到所述目標用戶的合成語音。
7.根據權利要求6所述的方法,其特征在于,所述方法還包括:
基于語音信號參數對所述合成語音進行調整;其中,所述語音信號參數包括音量、語速以及背景噪聲中的一種或多種。
8.一種語音合成模型的訓練裝置,其特征在于,所述裝置包括:
第一語音獲取模塊,用于獲取目標用戶的第一語音數據;
第二語音獲取模塊,用于基于說話人分類網絡在語音數據集合中確定與所述第一語音數據相似度最大的第二語音數據;
語音合成模塊,用于基于所述第二語音數據對初始語音合成模型進行訓練得到目標語音合成模型。
9.一種計算機存儲介質,其特征在于,所述計算機存儲介質存儲有多條指令,所述指令適于由處理器加載并執行如權利要求1~7任意一項的方法步驟。
10.一種電子設備,其特征在于,包括:處理器和存儲器;其中,所述存儲器存儲有計算機程序,所述計算機程序適于由所述處理器加載并執行如權利要求1~7任意一項的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大米科技有限公司,未經北京大米科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011135518.8/1.html,轉載請聲明來源鉆瓜專利網。





