[發(fā)明專利]語音合成方法、裝置及設(shè)備有效

申請?zhí)枺?/td>	201410720550.0	申請日：	2014-12-01
公開（公告）號：	CN104538024B	公開（公告）日：	2019-03-08
發(fā)明（設(shè)計）人：	康永國;李威;賈磊;蓋于濤;鄒賽賽	申請（專利權(quán)）人：	百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L15/16;G10L25/30
代理公司：	北京潤平知識產(chǎn)權(quán)代理有限公司 11283	代理人：	王崇
地址：	100085 北京***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音合成方法裝置設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了語音合成方法、裝置和設(shè)備。該方法包括：獲取待處理文本的語境信息；根據(jù)所述語境信息利用時長預(yù)測模型確定語音時長，其中所述時長預(yù)測模型是基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到；根據(jù)所述語境信息及所述語音時長，利用譜和基頻預(yù)測模型確定譜和基頻特征參數(shù)；根據(jù)所述譜和基頻特征參數(shù)得到合成語音。本發(fā)明提供的語音合成方法能夠提供高音質(zhì)、自然流暢的語音。

技術(shù)領(lǐng)域

本發(fā)明涉及計算機領(lǐng)域，尤其涉及一種語音合成方法、裝置及設(shè)備。

背景技術(shù)

語音合成是通過機械的、電子的方法產(chǎn)生人造語音的技術(shù)，它是將計算機自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的語音輸出的技術(shù)。目前的語音合成技術(shù)多是采用基于隱馬爾科夫模型(以下簡稱HMM)的參數(shù)合成技術(shù)(以下簡稱HTS)，該HTS語音合成技術(shù)在訓(xùn)練階段，對訓(xùn)練數(shù)據(jù)進行決策樹聚類和HMM建模，得到聚類HMM以及決策樹。在語音合成階段，利用決策樹將待合成文本的語境信息進行決策，得到對應(yīng)的聲學(xué)信息，即譜和基頻特征參數(shù)，包括譜和基頻特征參數(shù)本身及其差分、二階差分等動態(tài)特征，之后，根據(jù)聲學(xué)信息的差分等動態(tài)特征生成平滑的特征參數(shù)序列，最后將生成的特征參數(shù)序列輸入聲碼器獲得合成語音。該HTS語音合成技術(shù)，其基于差分的動態(tài)特征生成動態(tài)參數(shù)過程，會為生成的特征參數(shù)序列帶來過平滑現(xiàn)象，該過平滑現(xiàn)象導(dǎo)致所合成的語音音質(zhì)低、節(jié)奏單調(diào)平淡。

發(fā)明內(nèi)容

本發(fā)明解決的技術(shù)問題之一是提供語音合成方法、裝置及設(shè)備，從而提供高音質(zhì)、自然流暢的語音。

根據(jù)本發(fā)明一方面的一個實施例，提供了一種語音合成方法，其中，包括：

獲取待處理文本的語境信息；

根據(jù)所述語境信息利用時長預(yù)測模型確定語音時長，所述時長預(yù)測模型是基于長短時記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到；

根據(jù)所述語境信息及所述語音時長，利用譜和基頻預(yù)測模型確定譜和基頻特征參數(shù)；

根據(jù)所述譜和基頻特征參數(shù)得到合成語音。

可選地，獲取待處理文本的語境信息具體包括：

獲取待處理文本音子級語境信息。

可選地，還包括：

對獲取的所述語境信息進行降維處理。

可選地，所述譜和基頻預(yù)測模型是基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。

可選地，所述深度神經(jīng)網(wǎng)絡(luò)包括：長短時記憶神經(jīng)網(wǎng)絡(luò)。

根據(jù)本發(fā)明另一方面的一個實施例，提供了一種語音合成裝置，包括：

用于獲取待處理文本的語境信息的單元；

用于根據(jù)所述語境信息利用時長預(yù)測模型確定語音時長的單元，所述時長預(yù)測模型是基于長短時記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到；

用于根據(jù)所述語境信息及所述語音時長，利用譜和基頻預(yù)測模型確定譜和基頻特征參數(shù)的單元；

用于根據(jù)所述譜和基頻特征參數(shù)得到合成語音的單元。

可選地，用于獲取待處理文本語境信息的單元具體用于：

獲取待處理文本音子級語境信息。

可選地，還包括：

用于對獲取的所述語境信息進行降維處理的單元。

可選地，所述譜和基頻預(yù)測模型是基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。

可選地，所述深度神經(jīng)網(wǎng)絡(luò)包括：長短時記憶神經(jīng)網(wǎng)絡(luò)。

根據(jù)本發(fā)明的另一方面的一個實施例，還提供了一種計算機設(shè)備，包括前述語音合成裝置。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司，未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410720550.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。