[發明專利]語音合成方法以及電子設備、存儲裝置在審

申請號：	202011615062.5	申請日：	2020-12-30
公開（公告）號：	CN112786004A	公開（公告）日：	2021-05-11
發明（設計）人：	王瑾薇;胡亞軍;江源	申請（專利權）人：	科大訊飛股份有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L15/16;G10L25/63
代理公司：	深圳市威世博知識產權代理事務所(普通合伙) 44280	代理人：	何倚雯
地址：	230088 安徽省***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法以及電子設備存儲裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種語音合成方法以及電子設備、存儲裝置，其中，語音合成方法包括：獲取待合成文本和待合成文本的目標情感類型，并獲取目標情感類型的參考音頻；基于參考音頻關于韻律參數的數據分布情況，獲取與目標情感類型對應的韻律特征；其中，韻律參數包括以下至少一種：基頻、強度、時長；以及，對待合成文本的音素序列進行特征提取，得到待合成文本的音素特征；利用韻律特征和音素特征進行解碼，得到待合成文本融入目標情感類型后的合成音頻。上述方案，能夠準確地在合成音頻中融入情感。

技術領域

本申請涉及人工智能技術領域，特別是涉及一種語音合成方法以及電子設備、存儲裝置。

背景技術

語音合成是指將文本轉化為音頻的技術，從而能夠使機器按照文本發出聲音。目前，語音合成已在智能客服、小說閱讀、智能車載等諸多場景得到了應用。然而，目前的語音合成缺乏情感，如在交互場景，智能客服并不能在交互過程中與用戶產生共情，從而大大降低用戶體驗。有鑒于此，如何準確地在合成音頻中融入情感成為極具研究價值的課題。

發明內容

本申請主要解決的技術問題文本是提供一種語音合成方法以及電子設備、存儲裝置，能夠準確地在合成音頻中融入情感。

為了解決上述問題文本，本申請第一方面提供了一種語音合成方法，包括：獲取待合成文本和待合成文本的目標情感類型，并獲取目標情感類型的參考音頻；基于參考音頻關于韻律參數的數據分布情況，獲取與目標情感類型對應的韻律特征；其中，韻律參數包括以下至少一種：基頻、強度、時長；以及，對待合成文本的音素序列進行特征提取，得到待合成文本的音素特征；利用韻律特征和音素特征進行解碼，得到待合成文本融入目標情感類型后的合成音頻。

為了解決上述問題文本，本申請第二方面提供了一種電子設備，包括相互耦接的存儲器和處理器，存儲器中存儲有程序指令，處理器用于執行程序指令以實現上述第一方面中的語音合成方法。

為了解決上述問題文本，本申請第三方面提供了一種存儲裝置，存儲有能夠被處理器運行的程序指令，程序指令用于實現上述第一方面中的語音合成方法。

上述方案，通過獲取待合成文本和待合成文本的目標情感類型，并獲取目標情感類型的參考音頻，從而基于參考音頻關于韻律參數的數據分布情況，獲取與目標情感類型對應的韻律特征，且韻律參數包括以下至少一種：基頻、強度、時長，進而對待合成文本的音素序列進行特征提取，得到待合成文本的音素特征，并利用韻律特征和音素特征進行解碼，得到待合成文本融入目標情感類型后的合成音頻，能夠直接基于與目標情感類型對應的參考音頻的基頻、強度、時長中的至少一種數據分布情況，來得到韻律特征，有利于提高韻律特征的準確性，故能夠有利于利用韻律特征和音素特征準確地進解碼，進而能夠準確地在合成音頻中融入情感。

附圖說明

圖1是本申請語音合成方法一實施例的流程示意圖；

圖2是訓練情感預測模型一實施例的狀態示意圖；

圖3是本申請語音合成方法一實施例的框架示意圖；

圖4是圖1中步驟S12一實施例的流程示意圖；

圖5是訓練韻律提取網絡一實施例的流程示意圖；

圖6是訓練韻律提取網絡一實施例的框架示意圖；

圖7是訓練韻律提取網絡另一實施例的框架示意圖；

圖8是本申請電子設備一實施例的框架示意圖；

圖9是本申請存儲裝置一實施例的框架示意圖。

具體實施方式

下面結合說明書附圖，對本申請實施例的方案進行詳細說明。