[發明專利]語音合成方法、裝置、設備及存儲介質在審
| 申請號: | 202110593375.3 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113327573A | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 張旭龍;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L13/047 | 分類號: | G10L13/047;G10L25/24 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 張傳義 |
| 地址: | 518057 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 設備 存儲 介質 | ||
本申請涉及數據處理技術領域,并公開了一種語音合成方法、裝置、設備及存儲介質,所述方法通過空間快速含糊網絡模型對高采樣的音頻信號進行分析,得到第一梅爾頻譜后,將所述第一梅爾頻譜的頻段劃分為若干個頻段,分別確定劃分之后各個頻段的第二梅爾頻譜;將各個所述第二梅爾頻譜分別輸入所述空間快速含糊網絡模型中進行識別,生成第三梅爾頻譜;將各個所述第三梅爾頻譜分別輸入語音生成模型中進行分析,得到第一音頻波形;將所述第一音頻波形劃分為若干個不同長度的第二音頻波形,將各個所述第二音頻波形分別輸入所述語音生成模型中進行識別,得到語音合成信號。能夠解決語音合成結果失真問題,提高語音生成的音質效果。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種語音合成方法、裝置、設備及存儲介質。
背景技術
在語音合成技術中,為了保證合成語音的高保真效果,需要以人耳所能聽到音頻的兩倍頻進行采樣。而人耳所能聽到音頻的兩倍頻通常為40KHz以上,在如此高的采樣率下采集的音頻由于具有寬頻段以及較長的波形點,使得合成的語音無法更好的傳意和富含感情,影響語音的音質效果。
發明內容
本申請提供了一種語音合成方法、裝置、設備及存儲介質,能夠解決由于高采樣率所帶來的語音合成結果失真問題,提高語音生成的音質效果。
第一方面,本申請提供了一種語音合成方法,所述方法包括:
利用空間快速含糊網絡模型對高采樣的音頻信號進行分析,得到第一梅爾頻譜;
將所述第一梅爾頻譜的頻段劃分為若干個頻段,分別確定劃分之后各個頻段的第二梅爾頻譜;
將各個所述第二梅爾頻譜分別輸入所述空間快速含糊網絡模型中進行識別,生成第三梅爾頻譜;
將各個所述第三梅爾頻譜分別輸入語音生成模型中進行分析,得到第一音頻波形;
將所述第一音頻波形劃分為若干個不同長度的第二音頻波形,將各個所述第二音頻波形分別輸入所述語音生成模型中進行識別,得到語音合成信號。
第二方面,本申請還提供了一種語音合成裝置,包括:
第一得到模塊,用于利用空間快速含糊網絡模型對高采樣的音頻信號進行分析,得到第一梅爾頻譜;
確定模塊,用于將所述第一梅爾頻譜的頻段劃分為若干個頻段,分別確定劃分之后各個頻段的第二梅爾頻譜;
生成模塊,用于將各個所述第二梅爾頻譜分別輸入所述空間快速含糊網絡模型中進行識別,生成第三梅爾頻譜;
第二得到模塊,用于將各個所述第三梅爾頻譜分別輸入語音生成模型中進行分析,得到第一音頻波形;
第三得到模塊,用于將所述第一音頻波形劃分為若干個不同長度的第二音頻波形,將各個所述第二音頻波形分別輸入所述語音生成模型中進行識別,得到語音合成信號。
第三方面,本申請還提供了一種語音合成設備,包括:
存儲器和處理器;
所述存儲器用于存儲計算機程序;
所述處理器,用于執行所述計算機程序并在執行所述計算機程序時實現如上第一方面所述的語音合成方法的步驟。
第四方面,本申請還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時使所述處理器實現如上第一方面所述的語音合成方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110593375.3/2.html,轉載請聲明來源鉆瓜專利網。





