[發明專利]一種語音合成方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110251885.2 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN113096640A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 彭話易;黃旭為;張國鑫 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/10;G06F16/33;G06F16/36 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 合成 方法 裝置 電子設備 存儲 介質 | ||
本公開關于一種語音合成方法、裝置、電子設備及存儲介質,該方法包括:獲取待合成文本;根據待合成文本的音素序列,確定待合成文本的文本特征;根據輸入的情感標簽和情感強度值,確定待合成文本的情感特征;融合所述文本特征和所述情感特征,得到待合成文本對應的情感文本特征;根據所述情感文本特征確定所述待合成文本對應的聲學特征;根據待合成文本對應的聲學特征合成目標情感語音。本公開中合成語音的情感表現力與輸入的情感標簽和情感強度值相關聯,輸入不同的情感標簽可以得到不同情感類別的合成語音,輸入不同的情感強度值可以得到同一情感類別下不同情感強度的合成語音,在提升合成語音情感表現力同時還可控制合成語音的情感強度。
技術領域
本公開涉及計算機技術領域,尤其涉及一種語音合成方法、裝置、電子設備及存儲介質。
背景技術
隨著人工智能技術的不斷發展,人機交互即虛擬人與人類之間通過自然語言進行交互已經變的不可或缺,通過語音合成技術將自然語言轉換為語音是實現人機交互中的重要一環。語音合成是通過機械的、電子的方法產生人造語音的技術,它是將計算機自己產生的或者外部輸入的文字信息轉變為人類可以聽得懂的、流利的口語輸出的技術。
相關技術中,通過將深度學習技術應用于語音合成雖然合成出的語音達到了“能夠聽清,能夠聽懂”的程度,但其情感表現力不夠理想,情感表現單一且情感強度無法控制,無法滿足對于合成語音的“高擬人,高逼真,高情感表現力”的要求。
發明內容
本公開提供一種語音合成方法、裝置、電子設備及存儲介質,以至少解決相關技術中合成語音的情感表現力不夠理想,情感表現單一且情感強度無法控制的問題。本公開的技術方案如下:
根據本公開實施例的第一方面,提供一種語音合成方法,包括:
獲取待合成文本;
根據所述待合成文本的音素序列,確定所述待合成文本的文本特征;
根據輸入的情感標簽和情感強度值,確定所述待合成文本的情感特征;
融合所述文本特征和所述情感特征,得到所述待合成文本對應的情感文本特征;
根據所述情感文本特征,確定所述待合成文本對應的聲學特征;
根據所述待合成文本對應的聲學特征合成目標情感語音。
作為一個可能的實施方式,所述根據輸入的情感標簽和情感強度值,確定所述待合成文本的情感特征,包括:
確定輸入的情感標簽對應的獨熱編碼向量;
根據所述獨熱編碼向量和預設的情感詞典,得到所述情感標簽對應的情感編碼信息;
根據所述情感編碼信息和輸入的情感強度值,得到所述待合成文本的情感特征。
作為一個可能的實施方式,所述根據所述情感文本特征,確定所述待合成文本對應的聲學特征,包括:
將所述情感文本特征輸入至聲學特征模型,得到所述音素序列中各音素的時長特征、基頻特征和能量特征;
將所述情感文本特征與所述音素序列中各音素的時長特征、基頻特征和能量特征進行融合,得到目標融合文本特征;
根據所述目標融合文本特征,得到所述待合成文本對應的聲學特征。
作為一個可能的實施方式,所述將所述情感文本特征輸入至聲學特征模型,得到所述音素序列中各音素的時長特征,包括:
將所述情感文本特征輸入至聲學特征模型的時長預測網絡,得到所述音素序列中各音素的預測時長特征;
獲取輸入的時長調整系數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110251885.2/2.html,轉載請聲明來源鉆瓜專利網。





