[發(fā)明專利]語音合成方法、裝置、可讀介質(zhì)及電子設(shè)備有效

申請?zhí)枺?/td>	202011315115.1	申請日：	2020-11-20
公開（公告）號：	CN112489621B	公開（公告）日：	2022-07-12
發(fā)明（設(shè)計(jì)）人：	潘俊杰	申請（專利權(quán)）人：	北京有竹居網(wǎng)絡(luò)技術(shù)有限公司
主分類號：	G10L13/08	分類號：	G10L13/08;G10L13/02;G10L13/027
代理公司：	北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447	代理人：	張巖龍
地址：	101299 北京市平***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音合成方法裝置可讀介質(zhì) 電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種語音合成方法，其特征在于，所述方法包括：

獲取待合成文本和指定情感類型；所述指定情感類型為用戶指定的，期望將待合成文本合成為符合指定情感類型的音頻；

確定所述指定情感類型對應(yīng)的指定聲學(xué)特征；

將所述待合成文本和所述指定聲學(xué)特征輸入預(yù)先訓(xùn)練的語音合成模型，以獲取所述語音合成模型輸出的，所述待合成文本對應(yīng)的具有所述指定情感類型的目標(biāo)音頻，所述目標(biāo)音頻的聲學(xué)特征與所述指定聲學(xué)特征匹配，所述語音合成模型為根據(jù)不具有所述指定情感類型的語料訓(xùn)練得到的；

其中，所述語音合成模型用于：

通過所述待合成文本獲得所述待合成文本對應(yīng)的文本特征，和所述待合成文本對應(yīng)的預(yù)測聲學(xué)特征；所述文本特征表征所述待合成文本的文本向量，所述預(yù)測聲學(xué)特征為語音合成模型根據(jù)待合成文本，預(yù)測出的符合待合成文本的聲學(xué)特征；

通過所述指定聲學(xué)特征、所述預(yù)測聲學(xué)特征和所述文本特征，獲得具有所述指定情感類型的所述目標(biāo)音頻。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述指定聲學(xué)特征包括：基頻、音量、語速中的至少一種，所述確定所述指定情感類型對應(yīng)的指定聲學(xué)特征，包括：

根據(jù)所述指定情感類型，和預(yù)設(shè)的情感類型與聲學(xué)特征的關(guān)聯(lián)關(guān)系，確定對應(yīng)的所述指定聲學(xué)特征。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語音合成模型包括：第一編碼器、第二編碼器和合成器；

所述將所述待合成文本和所述指定聲學(xué)特征輸入預(yù)先訓(xùn)練的語音合成模型，以獲取所述語音合成模型輸出的，所述待合成文本對應(yīng)的具有所述指定情感類型的目標(biāo)音頻，包括：

通過所述第一編碼器，提取所述待合成文本對應(yīng)的所述文本特征；

通過所述第二編碼器，提取所述待合成文本對應(yīng)的所述預(yù)測聲學(xué)特征；

通過所述合成器，根據(jù)所述指定聲學(xué)特征、所述預(yù)測聲學(xué)特征和所述文本特征，生成所述目標(biāo)音頻。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述文本特征包括多個(gè)文本元素，通過所述合成器，根據(jù)所述指定聲學(xué)特征、所述預(yù)測聲學(xué)特征和所述文本特征，生成所述目標(biāo)音頻，包括：

通過所述合成器，根據(jù)當(dāng)前文本元素、歷史梅爾頻譜特征、所述指定聲學(xué)特征和所述預(yù)測聲學(xué)特征，確定當(dāng)前時(shí)刻的梅爾頻譜特征，所述當(dāng)前文本元素為所述文本特征中當(dāng)前時(shí)刻輸入到所述合成器的文本元素，所述歷史梅爾頻譜特征為所述合成器確定的上一時(shí)刻的梅爾頻譜特征；

通過所述合成器，根據(jù)每個(gè)時(shí)刻的梅爾頻譜特征，生成所述目標(biāo)音頻。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語音合成模型是通過如下方式訓(xùn)練獲得的：

通過訓(xùn)練文本對應(yīng)的不具有所述指定情感類型的訓(xùn)練音頻，提取所述訓(xùn)練音頻對應(yīng)的真實(shí)聲學(xué)特征；

將所述真實(shí)聲學(xué)特征與所述訓(xùn)練文本輸入所述語音合成模型，并根據(jù)所述語音合成模型的輸出與所述訓(xùn)練音頻，訓(xùn)練所述語音合成模型。

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述語音合成模型包括：第一編碼器、第二編碼器和合成器，所述第一編碼器和所述第二編碼器之間設(shè)置有阻止結(jié)構(gòu)，所述阻止結(jié)構(gòu)用于阻止所述第二編碼器將梯度回傳至所述第一編碼器；

所述將所述真實(shí)聲學(xué)特征與所述訓(xùn)練文本輸入所述語音合成模型，并根據(jù)所述語音合成模型的輸出與所述訓(xùn)練音頻，訓(xùn)練所述語音合成模型，包括：

通過所述第一編碼器提取所述訓(xùn)練文本對應(yīng)的訓(xùn)練文本特征；

通過所述第二編碼器提取所述訓(xùn)練文本對應(yīng)的預(yù)測訓(xùn)練聲學(xué)特征；

通過所述合成器，根據(jù)所述真實(shí)聲學(xué)特征、所述預(yù)測訓(xùn)練聲學(xué)特征和所述訓(xùn)練文本特征，生成所述語音合成模型的輸出。

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述語音合成模型的損失函數(shù)由第一損失和第二損失確定，所述第一損失由所述語音合成模型的輸出，與所述訓(xùn)練音頻確定，所述第二損失由所述第二編碼器的輸出，與所述真實(shí)聲學(xué)特征確定。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京有竹居網(wǎng)絡(luò)技術(shù)有限公司，未經(jīng)北京有竹居網(wǎng)絡(luò)技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011315115.1/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種非磁性薄板分張機(jī)器人夾具及分張方法
下一篇：一種提高高頻電源抗擾動能力的方法

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法；語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位；級聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生，例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測定
G10L13-04 ..語音合成系統(tǒng)的零部件，例如合成設(shè)備結(jié)構(gòu)或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】