[發明專利]語音合成方法和裝置、電子設備及存儲介質在審
| 申請號: | 202110783977.5 | 申請日: | 2021-07-12 |
| 公開(公告)號: | CN113409760A | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 周鴻斌;李林;蘇志霸;賀雯迪;葉劍豪;任凱盟;賀天威;盧恒 | 申請(專利權)人: | 上海喜馬拉雅科技有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04;G10L25/21 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 張萌 |
| 地址: | 201100 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 電子設備 存儲 介質 | ||
本申請實施例提供的語音合成方法和裝置、電子設備及存儲介質,涉及語音合成技術領域。語音合成方法包括:首先,獲取待處理語音數據的對數梅爾能量譜;其次,將待處理語音數據的對數梅爾能量譜輸入預設的語音合成模型,得到第一合成音頻,其中,預設的語音合成模型根據訓練數據的對數梅爾能量譜進行訓練得到。通過上述方法,可以實現通過對數梅爾能量譜就可以得到合成音頻,避免了現有技術中語音合成方法需要的參數量較多,所導致的語音合成效率低的問題。
技術領域
本申請涉及語音合成技術領域,具體而言,涉及一種語音合成方法和裝置、電子設備及存儲介質。
背景技術
人工合成人類語音被稱為語音合成,這種基于機器學習的技術適用于文本轉換語音(text-to-speech)、音樂生成、語音生成、語音支持設備、導航系統以及為視障人士提供無障礙服務等應用場景。但是,經發明人研究發現,在現有技術中的語音合成方法需要的參數量較多,從而存在著語音合成的效率低的問題。
發明內容
有鑒于此,本申請的目的在于提供一種語音合成方法和裝置、電子設備及存儲介質,以改善現有技術中存在的問題。
為實現上述目的,本申請實施例采用如下技術方案:
第一方面,本發明提供一種語音合成方法,包括:
獲取待處理語音數據的對數梅爾能量譜;
將所述待處理語音數據的對數梅爾能量譜輸入預設的語音合成模型,得到第一合成音頻,其中,所述預設的語音合成模型根據訓練數據的對數梅爾能量譜進行訓練得到。
在可選的實施方式中,所述獲取待處理語音數據的對數梅爾能量譜的步驟,包括:
獲取所述待處理語音數據;
對所述待處理語音數據進行能量譜計算,得到所述待處理語音數據的能量譜;
對所述能量譜進行對數梅爾能量譜計算,得到所述待處理語音數據的對數梅爾能量譜。
在可選的實施方式中,所述對所述待處理語音數據進行能量譜計算,得到所述待處理語音數據的能量譜的步驟,包括:
對所述待處理語音數據進行分幀處理,得到所述待處理語音數據的音頻序列;
對所述音頻序列進行短時傅立葉變換處理,得到所述待處理語音數據的頻譜;
對所述頻譜進行頻譜能量計算,得到所述待處理語音數據的能量譜。
在可選的實施方式中,所述將所述待處理語音數據的對數梅爾能量譜輸入預設的語音合成模型,得到第一合成音頻的步驟,包括:
將所述待處理語音數據的對數梅爾能量譜輸入預設的語音合成模型,根據預設的偽逆矩陣計算得到所述待處理語音數據的偽逆能量譜;
對所述偽逆能量譜進行短時傅立葉變換處理,得到所述待處理語音數據的變換音頻;
對所述待處理語音數據的對數梅爾能量譜和變換音頻進行合成處理,得到所述待處理語音數據的第一合成音頻。
在可選的實施方式中,所述語音合成方法還包括訓練語音合成模型的步驟,該步驟包括:
獲取所述訓練數據的對數梅爾能量譜;
對所述訓練數據的對數梅爾能量譜進行語音合成處理,得到所述訓練數據的第二合成音頻;
根據所述訓練數據的預設參數和所述第二合成音頻對預設模型進行訓練,得到語音合成模型。
在可選的實施方式中,所述預設參數包括相關系數,所述根據所述訓練數據的預設參數和所述第二合成音頻對預設模型進行訓練,得到語音合成模型的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海喜馬拉雅科技有限公司,未經上海喜馬拉雅科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110783977.5/2.html,轉載請聲明來源鉆瓜專利網。





