[發明專利]語音合成方法和裝置、電子設備及存儲介質在審

申請號：	202110783977.5	申請日：	2021-07-12
公開（公告）號：	CN113409760A	公開（公告）日：	2021-09-17
發明（設計）人：	周鴻斌;李林;蘇志霸;賀雯迪;葉劍豪;任凱盟;賀天威;盧恒	申請（專利權）人：	上海喜馬拉雅科技有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/04;G10L25/21
代理公司：	北京超凡宏宇專利代理事務所(特殊普通合伙) 11463	代理人：	張萌
地址：	201100 上海市***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例提供的語音合成方法和裝置、電子設備及存儲介質，涉及語音合成技術領域。語音合成方法包括：首先，獲取待處理語音數據的對數梅爾能量譜；其次，將待處理語音數據的對數梅爾能量譜輸入預設的語音合成模型，得到第一合成音頻，其中，預設的語音合成模型根據訓練數據的對數梅爾能量譜進行訓練得到。通過上述方法，可以實現通過對數梅爾能量譜就可以得到合成音頻，避免了現有技術中語音合成方法需要的參數量較多，所導致的語音合成效率低的問題。

技術領域

本申請涉及語音合成技術領域，具體而言，涉及一種語音合成方法和裝置、電子設備及存儲介質。

背景技術

人工合成人類語音被稱為語音合成，這種基于機器學習的技術適用于文本轉換語音(text-to-speech)、音樂生成、語音生成、語音支持設備、導航系統以及為視障人士提供無障礙服務等應用場景。但是，經發明人研究發現，在現有技術中的語音合成方法需要的參數量較多，從而存在著語音合成的效率低的問題。

發明內容

有鑒于此，本申請的目的在于提供一種語音合成方法和裝置、電子設備及存儲介質，以改善現有技術中存在的問題。

為實現上述目的，本申請實施例采用如下技術方案：

第一方面，本發明提供一種語音合成方法，包括：

獲取待處理語音數據的對數梅爾能量譜；

將所述待處理語音數據的對數梅爾能量譜輸入預設的語音合成模型，得到第一合成音頻，其中，所述預設的語音合成模型根據訓練數據的對數梅爾能量譜進行訓練得到。

在可選的實施方式中，所述獲取待處理語音數據的對數梅爾能量譜的步驟，包括：

獲取所述待處理語音數據；

對所述待處理語音數據進行能量譜計算，得到所述待處理語音數據的能量譜；

對所述能量譜進行對數梅爾能量譜計算，得到所述待處理語音數據的對數梅爾能量譜。

在可選的實施方式中，所述對所述待處理語音數據進行能量譜計算，得到所述待處理語音數據的能量譜的步驟，包括：

對所述待處理語音數據進行分幀處理，得到所述待處理語音數據的音頻序列；

對所述音頻序列進行短時傅立葉變換處理，得到所述待處理語音數據的頻譜；

對所述頻譜進行頻譜能量計算，得到所述待處理語音數據的能量譜。

在可選的實施方式中，所述將所述待處理語音數據的對數梅爾能量譜輸入預設的語音合成模型，得到第一合成音頻的步驟，包括：

將所述待處理語音數據的對數梅爾能量譜輸入預設的語音合成模型，根據預設的偽逆矩陣計算得到所述待處理語音數據的偽逆能量譜；

對所述偽逆能量譜進行短時傅立葉變換處理，得到所述待處理語音數據的變換音頻；

對所述待處理語音數據的對數梅爾能量譜和變換音頻進行合成處理，得到所述待處理語音數據的第一合成音頻。

在可選的實施方式中，所述語音合成方法還包括訓練語音合成模型的步驟，該步驟包括：

獲取所述訓練數據的對數梅爾能量譜；

對所述訓練數據的對數梅爾能量譜進行語音合成處理，得到所述訓練數據的第二合成音頻；

根據所述訓練數據的預設參數和所述第二合成音頻對預設模型進行訓練，得到語音合成模型。

在可選的實施方式中，所述預設參數包括相關系數，所述根據所述訓練數據的預設參數和所述第二合成音頻對預設模型進行訓練，得到語音合成模型的步驟，包括：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海喜馬拉雅科技有限公司，未經上海喜馬拉雅科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110783977.5/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種灰霉病病原菌灰葡萄孢菌間接ELISA檢測試劑盒
下一篇：一種有效改善作動手感和異音的對焦機構

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統
G10L13-02 .產生合成語音的方法；語音合成設備
G10L13-06 .語音合成設備中使用的基本語音單位；級聯規則
G10L13-08 .文本分析或文本以外的語音合成參數的產生，例如語義圖翻譯為音素、韻律產生、重音或聲調測定
G10L13-04 ..語音合成系統的零部件，例如合成設備結構或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】