[發(fā)明專利]語音合成方法、裝置、存儲(chǔ)介質(zhì)和電子設(shè)備有效

申請(qǐng)?zhí)枺?/td>	202010340815.X	申請(qǐng)日：	2020-04-26
公開（公告）號(hào)：	CN111653265B	公開（公告）日：	2023-08-18
發(fā)明（設(shè)計(jì)）人：	梁光;楊惠;舒景辰;譚星;張岱	申請(qǐng)（專利權(quán)）人：	北京大米科技有限公司
主分類號(hào)：	G10L13/08	分類號(hào)：	G10L13/08;G10L13/047
代理公司：	北京恒博知識(shí)產(chǎn)權(quán)代理有限公司 11528	代理人：	李寧寧
地址：	100123 北京市朝***	國(guó)省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音合成方法裝置存儲(chǔ) 介質(zhì) 電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種語音合成方法，其特征在于，所述方法包括：

確定輸入文本對(duì)應(yīng)的音素序列；

確定所述輸入文本對(duì)應(yīng)的情緒特征；

根據(jù)所述音素序列和所述情緒特征，合成所述輸入文本對(duì)應(yīng)的語音；

所述方法還包括：

確定播放角色的音色特征，所述播放角色用于播放所述輸入文本對(duì)應(yīng)的語音；

所述根據(jù)所述音素序列和所述情緒特征，合成所述輸入文本對(duì)應(yīng)的語音，包括：

根據(jù)所述音素序列、所述情緒特征和所述音色特征，合成所述輸入文本對(duì)應(yīng)的語音；

所述根據(jù)所述音素序列、所述情緒特征和所述音色特征，合成所述輸入文本對(duì)應(yīng)的語音，包括：

將所述音素序列、所述情緒特征和所述音色特征輸入至預(yù)設(shè)語音合成模型中，以合成所述輸入文本對(duì)應(yīng)的語音；

所述方法還包括：對(duì)所述預(yù)設(shè)語音合成模型進(jìn)行訓(xùn)練；

所述對(duì)所述預(yù)設(shè)語音合成模型進(jìn)行訓(xùn)練，包括：

輸入樣本文本和播放語音；

通過統(tǒng)計(jì)模型對(duì)所述樣本文本中每個(gè)詞對(duì)應(yīng)的音素序列的時(shí)長(zhǎng)進(jìn)行統(tǒng)計(jì)，并對(duì)所述每個(gè)詞對(duì)應(yīng)的音素序列的時(shí)長(zhǎng)進(jìn)行概率評(píng)估；

通過所述統(tǒng)計(jì)模型從所述音素序列中確定出概率值最大的音素序列，并確定所述概率值最大的音素序列對(duì)應(yīng)的目標(biāo)時(shí)長(zhǎng)信息；

對(duì)所述樣本文本進(jìn)行編碼處理，得到所述樣本文本對(duì)應(yīng)的第一特征向量；以及，對(duì)訓(xùn)練數(shù)據(jù)中的播放語音進(jìn)行音色提取，得到所述播放語音對(duì)應(yīng)的音色特征向量；

將所述第一特征向量和所述音色特征向量進(jìn)行拼接或乘法運(yùn)算，得到第二特征向量；

根據(jù)所述目標(biāo)時(shí)長(zhǎng)信息對(duì)所述第二特征向量進(jìn)行運(yùn)算，得到第三特征向量；

對(duì)所述第三特征向量進(jìn)行解碼，并根據(jù)解碼結(jié)果得到損失函數(shù)；

根據(jù)所述損失函數(shù)和所述播放語音，對(duì)所述預(yù)設(shè)語音合成模型進(jìn)行優(yōu)化。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定所述輸入文本對(duì)應(yīng)的情緒特征，包括：

對(duì)所述輸入文本進(jìn)行情緒識(shí)別，得到所述輸入文本對(duì)應(yīng)的所述情緒特征。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定所述輸入文本對(duì)應(yīng)的情緒特征，包括：

根據(jù)所述輸入文本中的情緒標(biāo)識(shí)，確定所述輸入文本對(duì)應(yīng)的所述情緒特征。

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述輸入文本中包括多個(gè)播放角色的語音內(nèi)容，所述確定輸入文本對(duì)應(yīng)的音素序列，包括：

確定所述多個(gè)播放角色中每個(gè)播放角色的角色序列，所述角色序列為所述播放角色在所述輸入文本中的語音內(nèi)容對(duì)應(yīng)的音素序列；

所述確定所述輸入文本對(duì)應(yīng)的情緒特征，包括：

分別對(duì)所述輸入文本中每個(gè)播放角色的語音內(nèi)容進(jìn)行情緒識(shí)別，得到所述每個(gè)播放角色的情緒特征；

所述根據(jù)所述音素序列和所述情緒特征，合成所述輸入文本對(duì)應(yīng)的語音，包括：

根據(jù)所述每個(gè)播放角色的角色序列和所述每個(gè)播放角色的情緒特征，合成所述每個(gè)播放角色對(duì)應(yīng)的語音。

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述方法還包括：

確定所述多個(gè)播放角色中每個(gè)播放角色的音色特征；

所述根據(jù)所述每個(gè)播放角色的角色序列和所述每個(gè)播放角色的情緒特征，合成所述每個(gè)播放角色對(duì)應(yīng)的語音，包括：

根據(jù)所述每個(gè)播放角色的角色序列、所述每個(gè)播放角色的情緒特征和所述每個(gè)播放角色的音色特征，合成所述每個(gè)播放角色對(duì)應(yīng)的語音。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述預(yù)設(shè)語音合成模型是通過多組訓(xùn)練數(shù)據(jù)訓(xùn)練出來的，所述訓(xùn)練數(shù)據(jù)包括：多個(gè)所述樣本文本和與所述多個(gè)所述樣本文本對(duì)應(yīng)的多個(gè)播放語音，每個(gè)所述播放語音至少由一個(gè)播放角色錄制而成。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大米科技有限公司，未經(jīng)北京大米科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010340815.X/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種低溫?zé)Y(jié)制備氧化鋁陶瓷制品的設(shè)備
下一篇：地圖渲染方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識(shí)別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法；語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位；級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生，例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語音合成系統(tǒng)的零部件，例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】