[發(fā)明專利]語音合成模型訓(xùn)練方法、語音合成方法、裝置及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202011266576.4 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112509550A | 公開(公告)日: | 2021-03-16 |
| 發(fā)明(設(shè)計(jì))人: | 郭俊龍;賴勇銓;賀亞運(yùn);李美玲 | 申請(專利權(quán))人: | 中信銀行股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08;G10L17/00;G10L25/30 |
| 代理公司: | 北京市蘭臺律師事務(wù)所 11354 | 代理人: | 李浩;張峰 |
| 地址: | 100020 北京市朝*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 合成 模型 訓(xùn)練 方法 裝置 電子設(shè)備 | ||
本申請?zhí)峁┝艘环N語音合成模型訓(xùn)練方法、語音合成方法、裝置及電子設(shè)備,應(yīng)用于語音處理領(lǐng)域,其中該方法包括:通過不同說話人的語音樣本、語音樣本對應(yīng)的文本、說話人的標(biāo)識進(jìn)行語音合成模型的訓(xùn)練,從而得到能夠合成多人語音的模型,進(jìn)而可以根據(jù)該能夠合成多人語音的模型生成多個人的合成語音,與現(xiàn)有技術(shù)每個說話人都需訓(xùn)練模型,合成多個人的語音需要訓(xùn)練多個模型相比,本申請不必訓(xùn)練多個模型,僅訓(xùn)練一個模型即可得到多人合成語音。
技術(shù)領(lǐng)域
本申請涉及語音處理技術(shù)領(lǐng)域,具體而言,本申請涉及一種語音合成模型訓(xùn)練方法、語音合成方法、裝置及電子設(shè)備。
背景技術(shù)
語音合成(Text to Speech,TTS)技術(shù),即通過文本內(nèi)容生成語音信號,涉及數(shù)字信號處理、計(jì)算機(jī)技術(shù)、聲學(xué)、語言學(xué)。隨著語音合成技術(shù)在各行各業(yè)的應(yīng)用,對于語音合成的個性化需求越來越急迫,即根據(jù)不同的場景使用不同說話人的語音。因此產(chǎn)生了多人語音合成技術(shù)的需求,即能夠根據(jù)不同場景的需求個性化的生成不同韻律的語音信號。在當(dāng)前單人語音合成技術(shù)不斷完善的情況下,如何快速高效并且合成帶有不同韻律的多人語音,成為了一個亟待解決的難題。
發(fā)明內(nèi)容
本申請?zhí)峁┝艘环N語音合成模型訓(xùn)練方法、語音合成方法、裝置及電子設(shè)備,用于實(shí)現(xiàn)多人語音的合成,本申請采用的技術(shù)方案如下:
第一方面,提供了一種一種語音合成模型訓(xùn)練方法,包括:
獲取第一訓(xùn)練語音樣本、第一訓(xùn)練語音樣本對應(yīng)的文本、第一訓(xùn)練語音樣本對應(yīng)的說話人的標(biāo)識;
確定第一訓(xùn)練語音樣本對應(yīng)的文本對應(yīng)的第一文本向量,以及確定第一訓(xùn)練語音樣本對應(yīng)的說話人的標(biāo)識對應(yīng)的第一說話人向量;
基于第一文本向量與第一說話人向量確定第一拼接向量;
將第一拼接向量輸入至預(yù)設(shè)的語音合成模型生成第一梅爾聲譜圖;
基于第一訓(xùn)練語音樣本與生成的第一梅爾聲譜圖確定第一損失值,并基于確定的第一損失值判定預(yù)設(shè)的語音合成模型是否收斂;
如果預(yù)設(shè)的語音合成模型收斂,則得到訓(xùn)練成功的語音合成模型。
可選地,該方法還包括:
如果預(yù)設(shè)的語音合成模型不收斂,則基于損失值進(jìn)行梯度下降調(diào)整預(yù)設(shè)的語音合成模型的參數(shù),得到調(diào)整后的語音合成模型;
獲取第二訓(xùn)練語音樣本、第二訓(xùn)練語音樣本對應(yīng)的文本、第二訓(xùn)練語音樣本對應(yīng)的說話人的標(biāo)識;
確定第二訓(xùn)練語音樣本對應(yīng)的文本對應(yīng)的第二文本向量,以及確定第二訓(xùn)練語音樣本對應(yīng)的說話人的標(biāo)識對應(yīng)的第二說話人向量;
基于第二文本向量與第二說話人向量確定第二拼接向量;
將第二拼接向量輸入至調(diào)整后語音合成模型生成第二梅爾聲譜圖;
基于第二訓(xùn)練語音樣本與生成的第二梅爾聲譜圖確定第二損失值,并基于確定的第二損失值判定調(diào)整后語音合成模型是否收斂;
如果調(diào)整后的語音合成模型收斂,則得到訓(xùn)練成功的語音合成模型。
可選地,確定第一訓(xùn)練語音樣本對應(yīng)的第一文本向量,包括:
將第一訓(xùn)練語音樣本對應(yīng)的文本轉(zhuǎn)換成帶音調(diào)標(biāo)識的拼音字符串;
基于預(yù)定的映射規(guī)則將拼音字符串轉(zhuǎn)換為數(shù)字字符串;
基于數(shù)字字符串以及預(yù)訓(xùn)練的文本嵌入矩陣得到第一文本向量。
可選地,確定第一訓(xùn)練語音樣本對應(yīng)的說話人的標(biāo)識對應(yīng)的第一說話人向量,包括:
基于第一訓(xùn)練語音樣本對應(yīng)的說話人的標(biāo)識通過預(yù)訓(xùn)練的說話人嵌入矩陣確定第一說話人向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中信銀行股份有限公司,未經(jīng)中信銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011266576.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





