[發(fā)明專利]語音合成方法、裝置及設(shè)備有效
| 申請?zhí)枺?/td> | 201410720550.0 | 申請日: | 2014-12-01 |
| 公開(公告)號: | CN104538024B | 公開(公告)日: | 2019-03-08 |
| 發(fā)明(設(shè)計)人: | 康永國;李威;賈磊;蓋于濤;鄒賽賽 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L15/16;G10L25/30 |
| 代理公司: | 北京潤平知識產(chǎn)權(quán)代理有限公司 11283 | 代理人: | 王崇 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 合成 方法 裝置 設(shè)備 | ||
本發(fā)明提供了語音合成方法、裝置和設(shè)備。該方法包括:獲取待處理文本的語境信息;根據(jù)所述語境信息利用時長預(yù)測模型確定語音時長,其中所述時長預(yù)測模型是基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到;根據(jù)所述語境信息及所述語音時長,利用譜和基頻預(yù)測模型確定譜和基頻特征參數(shù);根據(jù)所述譜和基頻特征參數(shù)得到合成語音。本發(fā)明提供的語音合成方法能夠提供高音質(zhì)、自然流暢的語音。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機領(lǐng)域,尤其涉及一種語音合成方法、裝置及設(shè)備。
背景技術(shù)
語音合成是通過機械的、電子的方法產(chǎn)生人造語音的技術(shù),它是將計算機自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的語音輸出的技術(shù)。目前的語音合成技術(shù)多是采用基于隱馬爾科夫模型(以下簡稱HMM)的參數(shù)合成技術(shù)(以下簡稱HTS),該HTS語音合成技術(shù)在訓(xùn)練階段,對訓(xùn)練數(shù)據(jù)進行決策樹聚類和HMM建模,得到聚類HMM以及決策樹。在語音合成階段,利用決策樹將待合成文本的語境信息進行決策,得到對應(yīng)的聲學(xué)信息,即譜和基頻特征參數(shù),包括譜和基頻特征參數(shù)本身及其差分、二階差分等動態(tài)特征,之后,根據(jù)聲學(xué)信息的差分等動態(tài)特征生成平滑的特征參數(shù)序列,最后將生成的特征參數(shù)序列輸入聲碼器獲得合成語音。該HTS語音合成技術(shù),其基于差分的動態(tài)特征生成動態(tài)參數(shù)過程,會為生成的特征參數(shù)序列帶來過平滑現(xiàn)象,該過平滑現(xiàn)象導(dǎo)致所合成的語音音質(zhì)低、節(jié)奏單調(diào)平淡。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題之一是提供語音合成方法、裝置及設(shè)備,從而提供高音質(zhì)、自然流暢的語音。
根據(jù)本發(fā)明一方面的一個實施例,提供了一種語音合成方法,其中,包括:
獲取待處理文本的語境信息;
根據(jù)所述語境信息利用時長預(yù)測模型確定語音時長,所述時長預(yù)測模型是基于長短時記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到;
根據(jù)所述語境信息及所述語音時長,利用譜和基頻預(yù)測模型確定譜和基頻特征參數(shù);
根據(jù)所述譜和基頻特征參數(shù)得到合成語音。
可選地,獲取待處理文本的語境信息具體包括:
獲取待處理文本音子級語境信息。
可選地,還包括:
對獲取的所述語境信息進行降維處理。
可選地,所述譜和基頻預(yù)測模型是基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。
可選地,所述深度神經(jīng)網(wǎng)絡(luò)包括:長短時記憶神經(jīng)網(wǎng)絡(luò)。
根據(jù)本發(fā)明另一方面的一個實施例,提供了一種語音合成裝置,包括:
用于獲取待處理文本的語境信息的單元;
用于根據(jù)所述語境信息利用時長預(yù)測模型確定語音時長的單元,所述時長預(yù)測模型是基于長短時記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到;
用于根據(jù)所述語境信息及所述語音時長,利用譜和基頻預(yù)測模型確定譜和基頻特征參數(shù)的單元;
用于根據(jù)所述譜和基頻特征參數(shù)得到合成語音的單元。
可選地,用于獲取待處理文本語境信息的單元具體用于:
獲取待處理文本音子級語境信息。
可選地,還包括:
用于對獲取的所述語境信息進行降維處理的單元。
可選地,所述譜和基頻預(yù)測模型是基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。
可選地,所述深度神經(jīng)網(wǎng)絡(luò)包括:長短時記憶神經(jīng)網(wǎng)絡(luò)。
根據(jù)本發(fā)明的另一方面的一個實施例,還提供了一種計算機設(shè)備,包括前述語音合成裝置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410720550.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





