[發(fā)明專利]語音合成方法、裝置、可讀介質(zhì)及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202110075973.1 | 申請日: | 2021-01-20 |
| 公開(公告)號: | CN112786007A | 公開(公告)日: | 2021-05-11 |
| 發(fā)明(設(shè)計)人: | 吳鵬飛;潘俊杰 | 申請(專利權(quán))人: | 北京有竹居網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G10L13/033;G10L25/30;G10L25/63 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447 | 代理人: | 魏云鹿 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 合成 方法 裝置 可讀 介質(zhì) 電子設(shè)備 | ||
1.一種語音合成方法,其特征在于,所述方法包括:
獲取待合成文本、指定聲學(xué)特征和指定情感類型,所述指定聲學(xué)特征用于指示音頻的韻律特征;
提取所述待合成文本對應(yīng)的音素序列;
將所述指定聲學(xué)特征按照所述音素序列進行擴展,得到聲學(xué)特征序列;
將所述音素序列、所述聲學(xué)特征序列和所述指定情感類型,輸入預(yù)先訓(xùn)練的語音合成模型,以得到所述語音合成模型輸出的,所述待合成文本對應(yīng)的具有所述指定情感類型的目標音頻,所述目標音頻的聲學(xué)特征與所述指定聲學(xué)特征匹配。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述指定聲學(xué)特征按照所述音素序列進行擴展,得到聲學(xué)特征序列,包括:
根據(jù)所述指定聲學(xué)特征,確定所述音素序列中每個音素對應(yīng)的聲學(xué)特征;
將每個所述音素對應(yīng)的所述聲學(xué)特征組成所述聲學(xué)特征序列。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音合成模型用于:
根據(jù)所述音素序列確定所述待合成文本對應(yīng)的文本特征序列,所述文本特征序列包括所述音素序列中每個音素對應(yīng)的文本特征;
確定所述指定情感類型對應(yīng)的指定情感特征,并將所述指定情感特征按照所述音素序列進行擴展,得到情感特征序列;
根據(jù)所述文本特征序列、所述聲學(xué)特征序列和所述情感特征序列,生成所述目標音頻。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述指定聲學(xué)特征包括:基頻、音量、語速中的至少一種。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音合成模型是通過如下方式訓(xùn)練獲得的:
提取訓(xùn)練文本對應(yīng)的訓(xùn)練音頻的真實聲學(xué)特征,所述真實聲學(xué)特征用于指示所述訓(xùn)練音頻的韻律特征;
將所述真實聲學(xué)特征按照所述訓(xùn)練文本對應(yīng)的訓(xùn)練音素序列進行擴展,得到訓(xùn)練聲學(xué)特征序列;
將所述訓(xùn)練音素序列、所述訓(xùn)練聲學(xué)特征序列和所述訓(xùn)練音頻對應(yīng)的訓(xùn)練情感類型,輸入所述語音合成模型,并根據(jù)所述語音合成模型的輸出與所述訓(xùn)練音頻,訓(xùn)練所述語音合成模型。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述真實聲學(xué)特征包括:基頻、音量、語速中的至少一種;所述提取訓(xùn)練文本對應(yīng)的訓(xùn)練音頻的真實聲學(xué)特征,包括:
若所述真實聲學(xué)特征包括語速,根據(jù)所述訓(xùn)練音頻和所述訓(xùn)練音素序列,確定所述訓(xùn)練音素序列中,每個訓(xùn)練音素對應(yīng)的時長,以確定所述訓(xùn)練音頻的語速;
若所述真實聲學(xué)特征包括基頻,提取所述訓(xùn)練音頻包括的每個音頻幀的基頻,以確定所述訓(xùn)練音頻的基頻;
若所述真實聲學(xué)特征包括音量,提取所述訓(xùn)練音頻包括的每個音頻幀的音量,以確定所述訓(xùn)練音頻的音量。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述訓(xùn)練音頻和所述訓(xùn)練音素序列,確定所述訓(xùn)練音素序列中,每個訓(xùn)練音素對應(yīng)的時長,以確定所述訓(xùn)練音頻的語速,包括:
根據(jù)所述訓(xùn)練音頻和所述訓(xùn)練音素序列,確定每個所述訓(xùn)練音素對應(yīng)的時長;
對每個所述訓(xùn)練音素對應(yīng)的時長進行對數(shù)運算,以得到每個所述訓(xùn)練音素對應(yīng)的對數(shù)時長;
將所述訓(xùn)練音素序列中每個所述訓(xùn)練音素對應(yīng)的對數(shù)時長的統(tǒng)計值,作為所述訓(xùn)練音頻的語速;
所述提取所述訓(xùn)練音頻包括的每個音頻幀的基頻,以確定所述訓(xùn)練音頻的基頻,包括:
對每個所述音頻幀對應(yīng)的基頻進行對數(shù)運算,以得到每個所述音頻幀對應(yīng)的對數(shù)基頻;
將所述訓(xùn)練音頻中每個所述音頻幀對應(yīng)的對數(shù)基頻的統(tǒng)計值,作為所述訓(xùn)練音頻的基頻;
所述提取所述訓(xùn)練音頻包括的每個音頻幀的音量,以確定所述訓(xùn)練音頻的音量,包括:
對每個所述音頻幀對應(yīng)的音量進行對數(shù)運算,以得到每個所述音頻幀對應(yīng)的對數(shù)音量;
將所述訓(xùn)練音頻中每個所述音頻幀對應(yīng)的對數(shù)音量的統(tǒng)計值,作為所述訓(xùn)練音頻的音量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京有竹居網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京有竹居網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110075973.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





