[發(fā)明專利]語音合成模型訓(xùn)練和語音合成方法、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010081935.2 | 申請日: | 2020-02-06 |
| 公開(公告)號: | CN113299272A | 公開(公告)日: | 2021-08-24 |
| 發(fā)明(設(shè)計)人: | 曹元斌;張斌;蓋于濤 | 申請(專利權(quán))人: | 菜鳥智能物流控股有限公司 |
| 主分類號: | G10L13/047 | 分類號: | G10L13/047;G10L13/04;G10L13/08;G10L15/22 |
| 代理公司: | 北京太合九思知識產(chǎn)權(quán)代理有限公司 11610 | 代理人: | 劉戈;張愛 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 合成 模型 訓(xùn)練 方法 設(shè)備 存儲 介質(zhì) | ||
本申請實施例提供一種語音合成模型訓(xùn)練和語音合成方法、設(shè)備及存儲介質(zhì)。在本申請實施例中,利用第一語音合成模型合成的音頻樣本來訓(xùn)練第二語音合成模型,這種模型訓(xùn)練方法得到的第二語音合成模型,在與第一語音合成模型配合來合成待合成文本的音頻時,可使兩種模型得到音頻片段銜接更加自然,有助于提高合成語音的自然度和流暢度,使得兩種模型配合得到的音頻更像同一個人說話。
技術(shù)領(lǐng)域
本申請涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種語音合成模型訓(xùn)練和語音合成方法、設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著人工智能技術(shù)的發(fā)展,人機對話逐漸進入人們的生活,常見的應(yīng)用場景包括:智能客服機器人、智能音箱、聊天機器人等。人機對話的核心在于機器能夠在所構(gòu)建的系統(tǒng)框架下,根據(jù)事先訓(xùn)練或?qū)W習(xí)的數(shù)據(jù),自動對用戶輸入的語音或文本進行理解和分析,并給出相應(yīng)的語音答復(fù)。在現(xiàn)有技術(shù)中,機器主要語音合成技術(shù)實現(xiàn)語音答復(fù)。
但是,現(xiàn)有的語音合成技術(shù)合成的語音經(jīng)常有一定的機械感,語言銜接不自然,用戶體驗較差。
發(fā)明內(nèi)容
本申請的多個方面提供一種語音合成模型訓(xùn)練和語音合成方法、設(shè)備及存儲介質(zhì),用以提高語音合成時語言之間的銜接的自然度,進而降低語音合成的機械感。
本申請實施例提供一種語音合成模型訓(xùn)練方法,包括:
獲取多個文本樣本;并利用第一語音合成模型,合成所述多個文本樣本對應(yīng)的多個音頻樣本;
利用所述多個文本樣本及所述多個音頻樣本進行模型訓(xùn)練,以得到第二語音合成模型;
其中,所述第一語音合成模型可合成待合成文本中屬于設(shè)定文本的文本片段的音頻;所述第二語音合成模型可合成所述待合成文本中不屬于所述設(shè)定文本的文本片段的音頻。
本申請實施例還提供一種語音合成方法,包括:
獲取待合成文本;
從所述待合成文本中,識別出第一文本片段和第二文本片段,所述第一文本片段對應(yīng)的音頻已由第一語音合成模型預(yù)先合成;
利用第二語音合成模型,合成所述第二文本片段對應(yīng)的音頻;所述第二語音合成模型是以所述第一語音合成模型合成的音頻作為樣本訓(xùn)練得到的;
對所述第一文本片段對應(yīng)的音頻和第二文本片段對應(yīng)的音頻進行拼接,以得到所述待合成文本的音頻。
本申請實施例還提供一種計算機設(shè)備,包括:存儲器和處理器;其中,所述存儲器,用于存儲計算機程序;
所述處理器耦合至所述存儲器,用于執(zhí)行所述計算機程序以用于:
獲取多個文本樣本;并利用第一語音合成模型,合成所述多個文本樣本對應(yīng)的多個音頻樣本;
利用所述多個文本樣本及所述多個音頻樣本進行模型訓(xùn)練,以得到第二語音合成模型;
其中,所述第一語音合成模型可合成待合成文本中屬于設(shè)定文本的文本片段的音頻;所述第二語音合成模型可合成所述待合成文本中不屬于所述設(shè)定文本的文本片段的音頻。
本申請實施例還提供一種計算機設(shè)備,包括:存儲器和處理器;其中,所述存儲器,用于存儲計算機程序;
所述處理器耦合至所述存儲器,用于執(zhí)行所述計算機程序以用于:
獲取待合成文本;
從所述待合成文本中,識別出第一文本片段和第二文本片段,所述第一文本片段對應(yīng)的音頻已由第一語音合成模型預(yù)先合成;
利用第二語音合成模型,合成所述第二文本片段對應(yīng)的音頻;所述第二語音合成模型是以所述第一語音合成模型合成的音頻作為樣本訓(xùn)練得到的;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于菜鳥智能物流控股有限公司,未經(jīng)菜鳥智能物流控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010081935.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





