[發明專利]語音合成方法、裝置、設備及存儲介質有效

申請號：	202011607966.3	申請日：	2020-12-30
公開（公告）號：	CN112802444B	公開（公告）日：	2023-07-25
發明（設計）人：	周良;孟廷;侯秋俠;劉丹;江源;胡亞軍	申請（專利權）人：	科大訊飛股份有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/08;G10L15/16
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	付麗
地址：	230088 安徽***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音合成方法，其特征在于，包括：

獲取待合成的原始文本；

獲取匹配文本對應的輔助合成特征，所述匹配文本與所述原始文本存在相匹配的文本片段，所述輔助合成特征為基于所述匹配文本對應的發音音頻所確定的用于輔助對原始文本的語音合成的特征；

參考所述輔助合成特征，對所述原始文本進行語音合成，得到合成語音；

其中，當所述輔助合成特征為所述匹配文本對應的發音音頻的聲學特征時，所述參考所述輔助合成特征，對所述原始文本進行語音合成，得到合成語音，包括：

基于語音合成模型處理所述原始文本，得到預測當前語音幀的上下文信息；

基于所述上下文信息、所述匹配文本及所述發音音頻的聲學特征，確定預測當前語音幀所需的目標聲學特征；

基于所述上下文信息，及確定的所述目標聲學特征，預測當前語音幀，在預測得到所有語音幀后，由預測的各語音幀組成合成語音。

2.根據權利要求1所述的方法，其特征在于，所述獲取匹配文本對應的輔助合成特征，包括：

獲取與所述原始文本存在相匹配的文本片段的匹配文本；

獲取基于所述匹配文本對應的發音音頻所確定的輔助合成特征。

3.根據權利要求1或2所述的方法，其特征在于，所述輔助合成特征包括：

基于所述匹配文本對應的發音音頻所確定的，所述匹配文本對應的音素序列；

和/或，

基于所述匹配文本對應的發音音頻所確定的，所述匹配文本對應的韻律信息；

和/或，

基于所述匹配文本對應的發音音頻所確定的，所述匹配文本對應的音素級韻律編碼；

和/或，

所述匹配文本對應的發音音頻的聲學特征。

4.根據權利要求2所述的方法，其特征在于，所述獲取與所述原始文本存在相匹配的文本片段的匹配文本，包括：

在預配置的模板文本中，確定與所述原始文本內的文本片段相匹配的匹配文本。

5.根據權利要求2所述的方法，其特征在于，所述獲取與所述原始文本存在相匹配的文本片段的匹配文本，包括：

獲取上傳數據中的上傳文本，作為所述匹配文本，所述上傳數據還包括所述上傳文本對應的發音音頻，所述上傳文本與所述原始文本存在相匹配的文本片段。

6.根據權利要求4所述的方法，其特征在于，所述預配置的模板文本包括：

各個預配置的資源包中的模板文本，其中每一資源包包含一模板文本，及基于所述模板文本對應的發音音頻所確定的，與所述模板文本對應的輔助合成特征。

7.根據權利要求6所述的方法，其特征在于，所述在預配置的模板文本中，確定與所述原始文本內的文本片段相匹配的匹配文本，包括：

分別將所述原始文本與預配置的每個資源包中的模板文本進行匹配計算；

在匹配度最高的資源包所包含的模板文本中，確定與所述原始文本內的文本片段相匹配的匹配文本。

8.根據權利要求7所述的方法，其特征在于，所述獲取基于所述匹配文本對應的發音音頻所確定的輔助合成特征，包括：

獲取所述匹配度最高的資源包中包含的，與所述匹配文本對應的輔助合成特征。

9.根據權利要求6-8任一項所述的方法，其特征在于，預配置的資源包的確定過程，包括：

獲取預配置的模板文本及對應的發音音頻；

基于所述發音音頻，確定所述模板文本對應的音素序列及韻律信息；

將所述音素序列及韻律信息作為所述模板文本對應的輔助合成特征，并將所述輔助合成特征與所述模板文本整理成一個資源包。

10.根據權利要求9所述的方法，其特征在于，預配置的資源包的確定過程，還包括：

基于所述模板文本及對應的發音音頻，確定所述模板文本對應的音素級韻律編碼；

將所述音素級韻律編碼合并入所述資源包中。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司，未經科大訊飛股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011607966.3/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種復合型pAlGaN電極接觸層、深紫外LED外延片及其制備方法
下一篇：節點測繪方法、裝置、測繪設備及可讀存儲介質

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統
G10L13-02 .產生合成語音的方法；語音合成設備
G10L13-06 .語音合成設備中使用的基本語音單位；級聯規則
G10L13-08 .文本分析或文本以外的語音合成參數的產生，例如語義圖翻譯為音素、韻律產生、重音或聲調測定
G10L13-04 ..語音合成系統的零部件，例如合成設備結構或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】