[發明專利]語音合成模型的訓練方法、裝置、存儲介質以及電子設備在審
| 申請號: | 202011135518.8 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112309365A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 吳雨璇;舒景辰;梁光;周鼎皓;楊惠 | 申請(專利權)人: | 北京大米科技有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/033;G10L13/08;G10L15/02;G10L15/06 |
| 代理公司: | 北京恒博知識產權代理有限公司 11528 | 代理人: | 張曉芳 |
| 地址: | 100025 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 模型 訓練 方法 裝置 存儲 介質 以及 電子設備 | ||
本申請實施例公開了一種語音合成模型的訓練方法,所述方法包括:獲取目標用戶的第一語音數據,基于說話人分類網絡在語音數據集合中確定與所述第一語音數據相似度最大的第二語音數據,基于所述第二語音數據對初始語音合成模型進行訓練得到目標語音合成模型。本申請針對語音合成模型對新的目標用戶進行訓練時,通過在已有的語音數據集合中找到與目標用戶說話風格最相似的語音數據對初始語音合成模型進行訓練,得到目標語音合成模型,初始語音合成模型是多人語音合成模型,提升了多人語音合成模型的訓練效率。
技術領域
本發明涉及語音處理技術領域,尤其涉及一種語音合成模型的訓練方法、裝置、存儲介質以及電子設備。
背景技術
隨著人工智能技術的發展,語音合成技術越來越受到人們的重視,合成語音被應用在各種場合中,比如:公共交通上的語音播報,在線教學課程中代替老師點名、讀題目等,天氣播報、新聞播報等與語音合成的相關場合中。相關技術中,語音合成模型不僅可以用在單個說話人的應用場景下,還有可以用在多個說話人的應用場景,但是多人語音合成模型的訓練過程較為繁瑣,特別是在新增模擬對象時,由于數據不足等原因,影響了訓練效率和模型的準確率。
發明內容
本申請實施例提供了一種語音合成模型的訓練方法、裝置、計算機存儲介質以及電子終端,旨在提升相關技術中多人語音合成模型的訓練效率的技術問題。所述技術方案如下:
第一方面,本申請實施例提供了一種語音合成模型的訓練方法,所述方法包括:
獲取目標用戶的第一語音數據;
基于說話人分類網絡在語音數據集合中確定與所述第一語音數據相似度最大的第二語音數據;
基于所述第二語音數據對初始語音合成模型進行訓練得到目標語音合成模型。
可選地,所述基于說話人分類網絡在語音數據集合中確定與所述第一語音數據相似度最高的第二語音數據,包括:
基于所述說話人分類網絡將所述第一語音數據進行處理得到多個第一特征向量,確定所述多個第一特征向量的特征向量均值;
基于所述說話人分類網絡計算所述語音數據集合包括的多種不同說話風格的語音數據各自對應的第二特征向量均值;
在多個第二特征向量均值中確定與所述特征向量均值相似度最大的第二特征向量均值;
將所述最大相似度值的第二特征向量均值對應的語音數據作為第二語音數據。
可選地,所述初始語音合成模型預先經過訓練,其訓練過程包括:
創建樣本文本數據集合和樣本語音數據集合;
對所述樣本文本數據集合包括的多個樣本用戶的樣本文本數據進行編碼解碼處理得到各個樣本用戶的樣本文本數據對應的梅爾頻譜;
計算所述各個樣本用戶的樣本文本數據對應的梅爾頻譜與所述各個樣本用戶的樣本語音數據對應的梅爾頻譜的損失值;
在所述損失值小于或等于預設閾值時生成所述初始語音合成模型。
可選地,所述對所述樣本文本數據集合包括的多個樣本用戶的樣本文本數據進行編碼解碼處理得到各個樣本用戶的樣本文本數據對應的梅爾頻譜,包括:
對所述多個樣本用戶的樣本文本數據進行編碼處理得到音素特征向量;
確定所述各個樣本用戶的語音數據對應的音色特征向量和情緒特征向量;
基于所述音素特征向量、音色特征向量和情緒特征向量,得到所述各個樣本用戶的樣本文本數據對應的梅爾頻譜。
可選地,所述確定所述各個樣本用戶的語音數據對應的情緒特征向量,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大米科技有限公司,未經北京大米科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011135518.8/2.html,轉載請聲明來源鉆瓜專利網。





