[發(fā)明專利]語音合成模型訓(xùn)練和語音合成方法、設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202010081935.2	申請日：	2020-02-06
公開（公告）號：	CN113299272A	公開（公告）日：	2021-08-24
發(fā)明（設(shè)計）人：	曹元斌;張斌;蓋于濤	申請（專利權(quán)）人：	菜鳥智能物流控股有限公司
主分類號：	G10L13/047	分類號：	G10L13/047;G10L13/04;G10L13/08;G10L15/22
代理公司：	北京太合九思知識產(chǎn)權(quán)代理有限公司 11610	代理人：	劉戈;張愛
地址：	英屬開曼群島大開***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音合成模型訓(xùn)練方法設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例提供一種語音合成模型訓(xùn)練和語音合成方法、設(shè)備及存儲介質(zhì)。在本申請實施例中，利用第一語音合成模型合成的音頻樣本來訓(xùn)練第二語音合成模型，這種模型訓(xùn)練方法得到的第二語音合成模型，在與第一語音合成模型配合來合成待合成文本的音頻時，可使兩種模型得到音頻片段銜接更加自然，有助于提高合成語音的自然度和流暢度，使得兩種模型配合得到的音頻更像同一個人說話。

技術(shù)領(lǐng)域

本申請涉及人工智能技術(shù)領(lǐng)域，尤其涉及一種語音合成模型訓(xùn)練和語音合成方法、設(shè)備及存儲介質(zhì)。

背景技術(shù)

隨著人工智能技術(shù)的發(fā)展，人機對話逐漸進入人們的生活，常見的應(yīng)用場景包括：智能客服機器人、智能音箱、聊天機器人等。人機對話的核心在于機器能夠在所構(gòu)建的系統(tǒng)框架下，根據(jù)事先訓(xùn)練或?qū)W習(xí)的數(shù)據(jù)，自動對用戶輸入的語音或文本進行理解和分析，并給出相應(yīng)的語音答復(fù)。在現(xiàn)有技術(shù)中，機器主要語音合成技術(shù)實現(xiàn)語音答復(fù)。

但是，現(xiàn)有的語音合成技術(shù)合成的語音經(jīng)常有一定的機械感，語言銜接不自然，用戶體驗較差。

發(fā)明內(nèi)容

本申請的多個方面提供一種語音合成模型訓(xùn)練和語音合成方法、設(shè)備及存儲介質(zhì)，用以提高語音合成時語言之間的銜接的自然度，進而降低語音合成的機械感。

本申請實施例提供一種語音合成模型訓(xùn)練方法，包括：

獲取多個文本樣本；并利用第一語音合成模型，合成所述多個文本樣本對應(yīng)的多個音頻樣本；

利用所述多個文本樣本及所述多個音頻樣本進行模型訓(xùn)練，以得到第二語音合成模型；

其中，所述第一語音合成模型可合成待合成文本中屬于設(shè)定文本的文本片段的音頻；所述第二語音合成模型可合成所述待合成文本中不屬于所述設(shè)定文本的文本片段的音頻。

本申請實施例還提供一種語音合成方法，包括：

獲取待合成文本；

從所述待合成文本中，識別出第一文本片段和第二文本片段，所述第一文本片段對應(yīng)的音頻已由第一語音合成模型預(yù)先合成；

利用第二語音合成模型，合成所述第二文本片段對應(yīng)的音頻；所述第二語音合成模型是以所述第一語音合成模型合成的音頻作為樣本訓(xùn)練得到的；

對所述第一文本片段對應(yīng)的音頻和第二文本片段對應(yīng)的音頻進行拼接，以得到所述待合成文本的音頻。

本申請實施例還提供一種計算機設(shè)備，包括：存儲器和處理器；其中，所述存儲器，用于存儲計算機程序；

所述處理器耦合至所述存儲器，用于執(zhí)行所述計算機程序以用于：

獲取多個文本樣本；并利用第一語音合成模型，合成所述多個文本樣本對應(yīng)的多個音頻樣本；

利用所述多個文本樣本及所述多個音頻樣本進行模型訓(xùn)練，以得到第二語音合成模型；

本申請實施例還提供一種計算機設(shè)備，包括：存儲器和處理器；其中，所述存儲器，用于存儲計算機程序；

所述處理器耦合至所述存儲器，用于執(zhí)行所述計算機程序以用于：

獲取待合成文本；

從所述待合成文本中，識別出第一文本片段和第二文本片段，所述第一文本片段對應(yīng)的音頻已由第一語音合成模型預(yù)先合成；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于菜鳥智能物流控股有限公司，未經(jīng)菜鳥智能物流控股有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010081935.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法；語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位；級聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生，例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測定
G10L13-04 ..語音合成系統(tǒng)的零部件，例如合成設(shè)備結(jié)構(gòu)或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

滑坡模型實驗?zāi)Ｐ图?/a>

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】