[發明專利]基于韻律特征預測的語音合成方法、裝置、終端及介質在審
| 申請號: | 201980003386.2 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111226275A | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 李賢;黃東延;丁萬;張皓;熊友軍 | 申請(專利權)人: | 深圳市優必選科技股份有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/10;G10L13/047;G10L25/30 |
| 代理公司: | 深圳中細軟知識產權代理有限公司 44528 | 代理人: | 彭佳偉 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 韻律 特征 預測 語音 合成 方法 裝置 終端 介質 | ||
本申請公開了一種基于韻律特征預測的語音合成方法,包括:獲取待合成文本;將所述待合成文本輸入預設的韻律預測模型,獲取所述待合成文本的韻律特征作為第一韻律特征,根據所述第一韻律特征確定目標韻律特征,所述待合成文本的韻律特征包括韻律詞特征、韻律短語特征、韻律語調短語特征;根據所述目標韻律特征進行語音合成,生成與所述待合成文本對應的目標語音。此外,本申請還公開了一種基于韻律特征預測的語音合成裝置、智能終端及計算機可讀存儲介質。采用本申請,可以提高文本的韻律特征預測的準確性,提高語音合成的效果。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種基于韻律特征預測的語音合成方法、裝置、智能終端及計算機可讀存儲介質。
背景技術
隨著移動互聯網和人工智能技術的快速發展,語音播報、聽小說、聽新聞、智能交互等一系列語音合成的場景越來越多。語音合成可以將文本、文字等轉換成自然語音輸出。
在語音合成的過程中,需要對文本進行韻律預測。韻律影響發音的自然度、流利度,一個好的韻律預測結果會使得合成得到的語音更像人說話的停頓方式,從而使得合成的語音更自然。
但是,在現有的韻律預測的方案中,主要是根據漢語的音素等聲學特征進行神經網絡模型的訓練和預測。但是,通過上述方案得到的韻律特征預測結果與真實的韻律特征之間存在一定的誤差,導致了韻律預測的準確性有所不足,從而造成了語音合成的效果不足。
也就是說,上述語音合成的方案中,因為韻律預測的準確性不足導致了合成的語音的效果不足。
發明內容
基于此,有必要針對上述問題,提出了一種基于韻律特征預測的語音合成方法、裝置、智能終端及計算機可讀存儲介質。
在本申請的第一方面,提出了一種基于韻律特征預測的語音合成方法。
一種基于韻律特征預測的語音合成方法,包括:
獲取待合成文本;
將所述待合成文本輸入預設的韻律預測模型,獲取所述待合成文本的韻律特征作為第一韻律特征,根據所述第一韻律特征確定目標韻律特征,所述待合成文本的韻律特征包括韻律詞特征、韻律短語特征、韻律語調短語特征;
根據所述目標韻律特征進行語音合成,生成與所述待合成文本對應的目標語音。
其中,所述將所述待合成文本輸入預設的韻律預測模型,獲取所述待合成文本的韻律特征作為第一韻律特征的步驟,還包括:
將所述待合成文本輸入預設的韻律詞預測模型,獲取第一韻律詞特征;
將所述待合成文本和/或所述第一韻律詞特征和預設的韻律短語預測模型,獲取第一韻律短語特征;
將所述待合成文本、第一韻律詞特征和/或所述第一韻律短語特征輸入預設的韻律語調短語預測模型,獲取第一韻律語調短語特征;
將所述第一韻律詞特征、第一韻律短語特征、第一韻律語調短語特征作為所述第一韻律特征。
在本申請的第二方面,提出了一種基于韻律特征預測的語音合成裝置。
一種基于韻律特征預測的語音合成裝置,包括:
文本獲取模塊,用于獲取待合成文本;
韻律特征獲取模塊,用于將所述待合成文本輸入預設的韻律預測模型,獲取所述待合成文本的韻律特征作為第一韻律特征,根據所述第一韻律特征確定目標韻律特征,所述待合成文本的韻律特征包括韻律詞特征、韻律短語特征、韻律語調短語特征;
語音合成模塊,用于根據所述目標韻律特征進行語音合成,生成與所述待合成文本對應的目標語音。
在本申請的第三方面,提出了一種智能終端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市優必選科技股份有限公司,未經深圳市優必選科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980003386.2/2.html,轉載請聲明來源鉆瓜專利網。





