[發明專利]一種語音合成方法、裝置、電子設備及存儲介質在審

申請號：	202110251885.2	申請日：	2021-03-08
公開（公告）號：	CN113096640A	公開（公告）日：	2021-07-09
發明（設計）人：	彭話易;黃旭為;張國鑫	申請（專利權）人：	北京達佳互聯信息技術有限公司
主分類號：	G10L13/08	分類號：	G10L13/08;G10L13/10;G06F16/33;G06F16/36
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	郝傳鑫;賈允
地址：	100085 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音合成方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開關于一種語音合成方法、裝置、電子設備及存儲介質，該方法包括：獲取待合成文本；根據待合成文本的音素序列，確定待合成文本的文本特征；根據輸入的情感標簽和情感強度值，確定待合成文本的情感特征；融合所述文本特征和所述情感特征，得到待合成文本對應的情感文本特征；根據所述情感文本特征確定所述待合成文本對應的聲學特征；根據待合成文本對應的聲學特征合成目標情感語音。本公開中合成語音的情感表現力與輸入的情感標簽和情感強度值相關聯，輸入不同的情感標簽可以得到不同情感類別的合成語音，輸入不同的情感強度值可以得到同一情感類別下不同情感強度的合成語音，在提升合成語音情感表現力同時還可控制合成語音的情感強度。

技術領域

本公開涉及計算機技術領域，尤其涉及一種語音合成方法、裝置、電子設備及存儲介質。

背景技術

隨著人工智能技術的不斷發展，人機交互即虛擬人與人類之間通過自然語言進行交互已經變的不可或缺，通過語音合成技術將自然語言轉換為語音是實現人機交互中的重要一環。語音合成是通過機械的、電子的方法產生人造語音的技術，它是將計算機自己產生的或者外部輸入的文字信息轉變為人類可以聽得懂的、流利的口語輸出的技術。

相關技術中，通過將深度學習技術應用于語音合成雖然合成出的語音達到了“能夠聽清，能夠聽懂”的程度，但其情感表現力不夠理想，情感表現單一且情感強度無法控制，無法滿足對于合成語音的“高擬人，高逼真，高情感表現力”的要求。

發明內容

本公開提供一種語音合成方法、裝置、電子設備及存儲介質，以至少解決相關技術中合成語音的情感表現力不夠理想，情感表現單一且情感強度無法控制的問題。本公開的技術方案如下：

根據本公開實施例的第一方面，提供一種語音合成方法，包括：

獲取待合成文本；

根據所述待合成文本的音素序列，確定所述待合成文本的文本特征；

根據輸入的情感標簽和情感強度值，確定所述待合成文本的情感特征；

融合所述文本特征和所述情感特征，得到所述待合成文本對應的情感文本特征；