[發(fā)明專利]基于單說話人語音合成數(shù)據(jù)集的聲音克隆方法及裝置在審

申請?zhí)枺?/td>	202010172979.6	申請日：	2020-03-13
公開（公告）號：	CN111048064A	公開（公告）日：	2020-04-21
發(fā)明（設(shè)計）人：	房樹明;朱鵬程;燕鵬舉;王洪濤;顧王一;畢成	申請（專利權(quán)）人：	同盾控股有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/08;G10L15/06;G10L15/16;G10L17/02;G10L17/04;G10L17/18;G10L19/16
代理公司：	杭州創(chuàng)智卓英知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33324	代理人：	張迪
地址：	311121 浙江省杭州市余***	國省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于說話人語合成數(shù)據(jù) 聲音克隆方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于單說話人語音合成數(shù)據(jù)集的聲音克隆方法，其特征在于：包括以下步驟：

獲取單說話人語音合成數(shù)據(jù)集，基于所述單說話人語音合成數(shù)據(jù)集，訓(xùn)練單說話人語音合成模型；

獲取多說話人語音數(shù)據(jù)集，基于所述多說話人語音數(shù)據(jù)集訓(xùn)練聲紋模型；

將所述多說話人語音數(shù)據(jù)集通過訓(xùn)練完成的聲紋模型進行計算，得到聲紋特征數(shù)據(jù)集，并基于所述聲紋特征數(shù)據(jù)集，訓(xùn)練聲音轉(zhuǎn)換模型；

獲取目標(biāo)文本和目標(biāo)說話人語音，將所述目標(biāo)文本和所述目標(biāo)說話人語音通過訓(xùn)練完成的單說話人語音合成模型、聲紋模型、聲音轉(zhuǎn)換模型進行計算，實現(xiàn)以目標(biāo)說話人聲音說出目標(biāo)文本的語音，包括：

將所述目標(biāo)文本輸入訓(xùn)練完成的單說話人語音合成模型進行計算，得到單說話人語音；

將所述目標(biāo)說話人語音輸入訓(xùn)練完成的聲紋模型進行計算，得到目標(biāo)說話人聲紋特征；

將所述單說話人語音和所述目標(biāo)說話人聲紋特征，通過訓(xùn)練完成的聲音轉(zhuǎn)換模型進行計算，實現(xiàn)以目標(biāo)說話人聲音說出目標(biāo)文本的語音。

2.如權(quán)利要求1所述的一種基于單說話人語音合成數(shù)據(jù)集的聲音克隆方法，其特征在于：所述單說話人語音合成數(shù)據(jù)集包括單說話人的文本數(shù)據(jù)和語音數(shù)據(jù)。

3.如權(quán)利要求2所述的一種基于單說話人語音合成數(shù)據(jù)集的聲音克隆方法，其特征在于：所述單說話人語音合成模型為Tacotron和聲碼器的集成模型，其中，所述聲碼器為WaveRNN聲碼器、Griffin-Lim聲碼器中的一種；基于所述單說話人語音合成數(shù)據(jù)集，訓(xùn)練單說話人語音合成模型，包括：

將所述文本數(shù)據(jù)轉(zhuǎn)換為文本向量；

將所述文本向量輸入所述單說話人語音合成模型進行計算，得到音頻預(yù)測值；

基于所述音頻預(yù)測值和所述語音數(shù)據(jù)之間的損失誤差，訓(xùn)練所述單說話人語音合成模型，得到訓(xùn)練完成的單說話人語音合成模型。

4.如權(quán)利要求1所述的一種基于單說話人語音合成數(shù)據(jù)集的聲音克隆方法，其特征在于：所述聲紋模型為三層LSTM模型；基于所述多說話人語音數(shù)據(jù)集訓(xùn)練聲紋模型，包括：

將所述多說話人語音數(shù)據(jù)集輸入所述聲紋模型進行計算，得到聲紋預(yù)測值；

將所述聲紋預(yù)測值和預(yù)存聲紋標(biāo)簽輸入損失函數(shù)進行計算，得到聲紋損失；

基于所述聲紋損失訓(xùn)練所述聲紋模型，得到訓(xùn)練完成的聲紋模型。

5.如權(quán)利要求1所述的一種基于單說話人語音合成數(shù)據(jù)集的聲音克隆方法，其特征在于：將所述多說話人語音數(shù)據(jù)集通過訓(xùn)練完成的聲紋模型進行計算，得到聲紋特征數(shù)據(jù)集，包括：

將所述多說話人語音數(shù)據(jù)集通過訓(xùn)練完成的聲紋模型進行計算，得到聲紋特征向量；

根據(jù)所述多說話人語音數(shù)據(jù)集和所述聲紋特征向量，生成所述聲紋特征數(shù)據(jù)集。

6.如權(quán)利要求1所述的一種基于單說話人語音合成數(shù)據(jù)集的聲音克隆方法，其特征在于：所述聲音轉(zhuǎn)換模型為Blow模型；基于所述聲紋特征數(shù)據(jù)集，訓(xùn)練聲音轉(zhuǎn)換模型，包括：

將所述聲紋特征數(shù)據(jù)集輸入所述聲音轉(zhuǎn)換模型進行計算，得到聲音預(yù)測值；

根據(jù)所述聲音預(yù)測值計算似然估計函數(shù)，得到聲音損失；

基于所述聲音損失訓(xùn)練所述聲音轉(zhuǎn)換模型，得到訓(xùn)練完成的聲音轉(zhuǎn)換模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同盾控股有限公司，未經(jīng)同盾控股有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010172979.6/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種在虛擬機中執(zhí)行功能模塊的方法和裝置
下一篇：翻譯模型的質(zhì)量信息獲取方法、裝置及計算機設(shè)備

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法；語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位；級聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生，例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測定
G10L13-04 ..語音合成系統(tǒng)的零部件，例如合成設(shè)備結(jié)構(gòu)或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】