[發明專利]語音合成方法、裝置、設備及存儲介質在審

申請號：	202110593375.3	申請日：	2021-05-28
公開（公告）號：	CN113327573A	公開（公告）日：	2021-08-31
發明（設計）人：	張旭龍;王健宗	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G10L13/047	分類號：	G10L13/047;G10L25/24
代理公司：	深圳市力道知識產權代理事務所(普通合伙) 44507	代理人：	張傳義
地址：	518057 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及數據處理技術領域，并公開了一種語音合成方法、裝置、設備及存儲介質，所述方法通過空間快速含糊網絡模型對高采樣的音頻信號進行分析，得到第一梅爾頻譜后，將所述第一梅爾頻譜的頻段劃分為若干個頻段，分別確定劃分之后各個頻段的第二梅爾頻譜；將各個所述第二梅爾頻譜分別輸入所述空間快速含糊網絡模型中進行識別，生成第三梅爾頻譜；將各個所述第三梅爾頻譜分別輸入語音生成模型中進行分析，得到第一音頻波形；將所述第一音頻波形劃分為若干個不同長度的第二音頻波形，將各個所述第二音頻波形分別輸入所述語音生成模型中進行識別，得到語音合成信號。能夠解決語音合成結果失真問題，提高語音生成的音質效果。

技術領域

本申請涉及數據處理技術領域，尤其涉及一種語音合成方法、裝置、設備及存儲介質。

背景技術

在語音合成技術中，為了保證合成語音的高保真效果，需要以人耳所能聽到音頻的兩倍頻進行采樣。而人耳所能聽到音頻的兩倍頻通常為40KHz以上，在如此高的采樣率下采集的音頻由于具有寬頻段以及較長的波形點，使得合成的語音無法更好的傳意和富含感情，影響語音的音質效果。

發明內容

本申請提供了一種語音合成方法、裝置、設備及存儲介質，能夠解決由于高采樣率所帶來的語音合成結果失真問題，提高語音生成的音質效果。

第一方面，本申請提供了一種語音合成方法，所述方法包括：

利用空間快速含糊網絡模型對高采樣的音頻信號進行分析，得到第一梅爾頻譜；

將所述第一梅爾頻譜的頻段劃分為若干個頻段，分別確定劃分之后各個頻段的第二梅爾頻譜；

將各個所述第二梅爾頻譜分別輸入所述空間快速含糊網絡模型中進行識別，生成第三梅爾頻譜；

將各個所述第三梅爾頻譜分別輸入語音生成模型中進行分析，得到第一音頻波形；

將所述第一音頻波形劃分為若干個不同長度的第二音頻波形，將各個所述第二音頻波形分別輸入所述語音生成模型中進行識別，得到語音合成信號。