[發明專利]英文語音合成方法及裝置有效

申請號：	202010141017.4	申請日：	2020-03-03
公開（公告）號：	CN111192566B	公開（公告）日：	2022-06-24
發明（設計）人：	孫見青	申請（專利權）人：	云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/10
代理公司：	北京冠和權律師事務所 11399	代理人：	張楠楠
地址：	100000 北京市海***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	英文語音合成方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明是關于英文語音合成方法及裝置。該方法包括：獲取發音標準的英文音庫；根據所述發音標準的英文音庫，構建預設英文合成模型；獲取非專業人員錄制的目標英文音庫；根據所述目標英文音庫，對所述預設英文合成模型進行調整，獲得目標英文合成模型；利用所述目標英文合成模型，將待合成的英文文本合成為英文語音。通過本發明的技術方案，可獲得合成自然度較高的目標英文合成模型，從而便于之后能夠獲得自然度較高(即語速正常、語調正常、音色一致)的英文語音，甚至在中英文混合的場景下也能準確進行英文語音合成，確保中文和英文合成音色的一致性。

技術領域

本發明涉及語音合成技術領域，尤其涉及英文語音合成方法及裝置。

背景技術

目前，在構建英文合成模型時，一般都需要請專業的英文發音人員進行音庫錄制，從而利用發音標準的音庫構建英文合成模型，但請專業的英文發音人員錄制音庫成本很高，而且，由此構建的英文合成模型比較呆板，無法準確地進行語音合成，例如，在一些需要中英文混合合成的場景下，利用基于發音標準的音庫構建的英文合成模型很難保證中文和英文合成音色的一致。

發明內容

本發明實施例提供了英文語音合成方法及裝置。所述技術方案如下：

根據本發明實施例的第一方面，提供一種英文語音合成方法，包括：

獲取發音標準的英文音庫；

根據所述發音標準的英文音庫，構建預設英文合成模型；

獲取非專業人員錄制的目標英文音庫；

根據所述目標英文音庫，對所述預設英文合成模型進行調整，獲得目標英文合成模型；

利用所述目標英文合成模型，將待合成的英文文本合成為英文語音。

在一個實施例中，所述預設英文合成模型包括與韻律相關的時長合成模型、基頻合成模型、與音色和發音內容相關的譜參數合成模型；

所述根據所述目標英文音庫，對所述預設英文合成模型進行調整，獲得目標英文合成模型，包括：

根據所述目標英文音庫，對所述譜參數合成模型進行重訓練，以得到所述目標英文合成模型，其中，所述目標英文合成模型中的與韻律相關的時長合成模型和基頻合成模型分別與所述預設英文合成模型中的與韻律相關的時長合成模型和基頻合成模型保持一致，即預設英文合成模型中的時長合成模型與目標英文合成模型中的時長合成模型一致，預設英文合成模型中的基頻合成模型與目標英文合成模型中的基頻合成模型也一致。

在一個實施例中，所述利用所述目標英文合成模型，將待合成的英文文本合成為英文語音，包括：

獲取將待合成的英文文本的第一時長預測結果，對所述第一時長預測結果進行調整，得到第二時長預測結果；

根據所述第二時長預測結果和所述目標英文合成模型，得到所述待合成的英文文本的第一基頻預測結果，對所述第一基頻預測結果進行調整，得到第二基頻預測結果；

根據所述第二時長預測結果和所述目標英文合成模型，得到所述待合成的英文文本的譜參數；

根據所述第二基頻預測結果和所述譜參數，將所述待合成的英文文本合成為所述英文語音。

在一個實施例中，所述獲取將待合成的英文文本的第一時長預測結果，包括：

將所述待合成的英文文本輸入至所述預設英文合成模型中的時長合成模型中，以得到所述第一時長預測結果。

在一個實施例中，根據所述第二基頻預測結果和所述譜參數，將所述待合成的英文文本合成為所述英文語音，包括：

將所述第二基頻預測結果和所述譜參數輸入至聲碼器，以通過所述聲碼器重構所述待合成的英文文本的所述英文語音。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司，未經云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】