[發(fā)明專利]一種語音合成方法、裝置和電子設(shè)備有效
| 申請?zhí)枺?/td> | 201910101435.8 | 申請日: | 2019-01-31 |
| 公開(公告)號: | CN110047462B | 公開(公告)日: | 2021-08-13 |
| 發(fā)明(設(shè)計(jì))人: | 王愈;李健;張連毅;武衛(wèi)東 | 申請(專利權(quán))人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08;G10L25/30 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀區(qū)東北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 合成 方法 裝置 電子設(shè)備 | ||
1.一種語音合成方法,其特征在于,包括步驟:
響應(yīng)文本輸入,對輸入的文本進(jìn)行文本分析,得到所述文本的目標(biāo)基元序列及相應(yīng)的語境信息;
針對所述語境信息,利用傳統(tǒng)模型決策樹確定所述語境信息在語音庫中選音目標(biāo)模型中的聲學(xué)參數(shù)模型、基元時(shí)長模型和邊界幀聲學(xué)參數(shù)模型中分別所屬的子類號及相應(yīng)的高斯分布模型;其中,所述傳統(tǒng)模型決策樹中包括一套聲學(xué)參數(shù)高斯模型和一套瓶頸向量高斯模型;
針對所述目標(biāo)基元序列中每個(gè)目標(biāo)基元,從所述語音庫中檢索所有候選單元,根據(jù)每個(gè)所述候選單元在所述選音目標(biāo)模型中所屬的子類號和所述目標(biāo)基元在所述選音目標(biāo)模型中所屬的子類號,查表得到每個(gè)所述候選單元與所述目標(biāo)基元的KLD距離,并根據(jù)所述KLD距離從多個(gè)候選單元中選擇部分候選單元作為預(yù)選結(jié)果;
利用所述預(yù)選結(jié)果依次將每個(gè)所述目標(biāo)基元形成一列,最終使所述目標(biāo)基元序列形成一套候選網(wǎng)格;
將所述語境信息輸入到深度學(xué)習(xí)模型,得到所述候選網(wǎng)格中每個(gè)所述目標(biāo)基元的聲學(xué)參數(shù)包絡(luò)、基元時(shí)長和邊界幀聲學(xué)參數(shù),并分別替換所述聲學(xué)參數(shù)模型、所述基元時(shí)長模型和所述邊界幀聲學(xué)參數(shù)模型中的均值,形成新的選音目標(biāo)模型;其中,所述深度學(xué)習(xí)模型包括聲學(xué)神經(jīng)網(wǎng)絡(luò)、基元時(shí)長神經(jīng)網(wǎng)絡(luò)和邊界神經(jīng)網(wǎng)絡(luò);
在所述候選網(wǎng)格中,對于每個(gè)所述候選單元,根據(jù)語境信息在選音目標(biāo)模型中的所述聲學(xué)參數(shù)模型、所述基元時(shí)長模型和所述邊界幀聲學(xué)參數(shù)模型中所屬的所述子類號及相應(yīng)的高斯分布模型計(jì)算每個(gè)所述候選單元的3種選音距離;
對于每個(gè)所述候選單元,將3種選音距離加權(quán)求和,得到其動態(tài)規(guī)劃代價(jià);
根據(jù)所述候選網(wǎng)格中各所述候選單元的動態(tài)規(guī)劃代價(jià),通過動態(tài)規(guī)劃最優(yōu)化算法,確定累積代價(jià)最小的最優(yōu)路徑;
根據(jù)所述最優(yōu)路徑從所述語音庫中讀取選定的基元,調(diào)整所述基元的長度與音高,順次平滑拼接在一起;
所述選音目標(biāo)模型中包括聲學(xué)參數(shù)的高斯分布模型、基元時(shí)長的高斯分布模型和邊界幀聲學(xué)參數(shù)的高斯分布模型。
2.如權(quán)利要求1所述的語音合成方法,其特征在于,所述選音目標(biāo)模型的決策樹中包括一套聲學(xué)參數(shù)高斯模型和一套瓶頸向量高斯模型。
3.如權(quán)利要求1所述的語音合成方法,其特征在于,所述深度學(xué)習(xí)模型包括聲學(xué)神經(jīng)網(wǎng)絡(luò)、基元時(shí)長神經(jīng)網(wǎng)絡(luò)和邊界神經(jīng)網(wǎng)絡(luò)。
4.如權(quán)利要求1所述的語音合成方法,其特征在于,還包括步驟:
根據(jù)兩路來源的訓(xùn)練樣本進(jìn)行模型訓(xùn)練,得到所述傳統(tǒng)模型決策樹,所述訓(xùn)練樣本來自于原始語音庫和根據(jù)補(bǔ)充語料庫生成的仿真數(shù)據(jù)。
5.如權(quán)利要求4所述的語音合成方法,其特征在于,還包括步驟:
對語境總表進(jìn)行降維縮減處理,得到全局頻次表和覆蓋頻次表;
從多種途徑搜集海量文本,經(jīng)過清洗和斷句后,挑出長度符合預(yù)設(shè)標(biāo)準(zhǔn)的句子,組成原始待選庫;
將所述原始待選庫中的每個(gè)所述句子進(jìn)行文本分析,得到每個(gè)所述句子的基元序列和語境信息;
遍歷所有所述句子每種語境的出現(xiàn)頻次,根據(jù)所述出現(xiàn)頻次初始化所述全局頻次表,并將所述覆蓋頻次表初始化為全零;
遍歷每個(gè)所述句子,根據(jù)所述出現(xiàn)頻次計(jì)算每個(gè)所述句子的貢獻(xiàn)分;
將所述貢獻(xiàn)分最高的多個(gè)所述句子摘錄為已選庫;
遍歷所述已選庫中的每個(gè)所述句子,更新所述覆蓋頻次表,如果所述覆蓋頻次表中所有非零的頻次都超過了閾值,則終止迭代;
當(dāng)所述覆蓋頻次表第一次被更新后,將所述覆蓋頻次表徹底取代所述全局頻次表,得到所述仿真數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京捷通華聲科技股份有限公司,未經(jīng)北京捷通華聲科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910101435.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種隔音通話罩
- 下一篇:一種語音合成方法、裝置和電子設(shè)備
- 同類專利
- 專利分類





