[發明專利]語音合成方法及裝置、電子設備、計算機可讀存儲介質有效
| 申請號: | 202210738396.4 | 申請日: | 2022-06-28 |
| 公開(公告)號: | CN114822492B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 劉龍飛 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 蘇銀虹;王艷茹 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
本公開關于一種語音合成方法及裝置、電子設備、計算機可讀存儲介質。該方法包括:將目標對象的語音和待合成文本輸入到編碼器中,得到第一特征和第二特征,其中,第一特征包含從目標對象的語音提取的特征,第二特征包含從待合成文本提取的特征;將待合成文本輸入到時長預測網絡中,得到待合成文本中每個文本單元的第一時長,其中,第一時長是待合成文本按所述目標對象的聲音呈現的語音中相應文本單元的時長;基于目標語音風格,將每個文本單元的第一時長調整為相應的第二時長;將第一特征、第二特征和第二時長輸入到擴幀網絡中,得到按第二時長進行擴幀后的第三特征;將第三特征輸入到解碼器中,得到符合目標語音風格的目標合成語音。
技術領域
本公開涉及音視頻處理領域,尤其涉及一種語音合成方法及裝置、電子設備、計算機可讀存儲介質。
背景技術
隨著人工智能的快速發展,如何使用合成技術自動合成語音日益成為學術界和工業界的關注焦點。傳統的語音合成(如,從文本到語音(Text To Speech,縮寫為TTS))技術生成的語音一般為朗讀形式的風格,比較貼近人自然狀態下的說話風格,因為語音合成訓練數據一般為自然說話風格,帶有一定節奏感的訓練數據比較缺乏,例如,想要為一個不會說唱的目標人合成即興說唱音樂的節奏感的語音時,需要大量的針對目標人的具有即興說唱音樂的節奏感的訓練數據,但目標人并不具備說唱能力,所以無法獲取到目標人的訓練數據,此時無法為目標人合成帶有即興說唱音樂的節奏感的語音。
發明內容
本公開提供一種語音合成方法及裝置、電子設備、計算機可讀存儲介質,以至少解決相關技術中的語音合成方法無法合成帶有一定節奏感的語音的問題。
根據本公開實施例的第一方面,提供一種語音合成方法,語音合成方法基于語音合成模型實現,語音合成模型包括編碼器、時長預測網絡、擴幀網絡和解碼器,語音合成方法包括:將目標對象的語音和待合成文本輸入到編碼器中,得到第一特征和第二特征,其中,第一特征包含從目標對象的語音提取的特征,第二特征包含從待合成文本提取的特征;將待合成文本輸入到時長預測網絡中,得到待合成文本中每個文本單元的第一時長,其中,第一時長是待合成文本按目標對象的聲音呈現的語音中相應文本單元的時長;基于目標語音風格,將每個文本單元的第一時長調整為相應的第二時長;將第一特征、第二特征和第二時長輸入到擴幀網絡中,得到按第二時長進行擴幀后的第三特征;將第三特征輸入到解碼器中,得到符合目標語音風格的目標合成語音。
可選地,基于目標語音風格,將每個文本單元的第一時長調整為相應的第二時長,包括:基于預設單元配置信息,確定待合成文本中待調整時長的文本單元,其中,預設單元配置信息包含待調整時長的文本單元的確定規則;將每個待調整時長的文本單元的第一時長調整為符合目標語音風格的時長。
可選地,基于目標語音風格,將每個文本單元的第一時長調整為相應的第二時長,還包括:將待合成文本中預定文本單元的第一時長調整為預定長度的時長,其中,預定文本單元是除所述待調整時長的文本單元之外的文本單元。
可選地,基于預設單元配置信息,確定待合成文本中待調整時長的文本單元,包括:獲取待合成文本對應的語義信息;基于語義信息和預設單元配置信息,確定待合成文本中待調整時長的文本單元。
可選地,語音合成模型通過如下方式進行訓練:獲取訓練數據,其中,訓練數據包括訓練對象的語音、訓練對象的語音對應的文本以及文本中每個文本單元在訓練對象的語音中的實際時長;將訓練對象的語音和訓練對象的語音對應的文本輸入到編碼器中,得到第一預估特征和第二預估特征,其中,第一預估特征包含從訓練對象的語音提取的特征,第二預估特征包含從文本提取的特征;將文本輸入到時長預測網絡中,得到文本中每個文本單元在訓練對象的語音中的第一預估時長;將第一預估特征、第二預估特征和文本中每個文本單元在訓練對象的語音中的實際時長輸入到擴幀網絡中,得到按實際時長進行擴幀后的第三預估特征;將第三預估特征輸入到解碼器中,得到預估合成語音,其中,預估合成語音的風格與訓練對象的語音的風格相同;基于第一預估時長、實際時長、訓練對象的語音和預估合成語音的損失值,調整語音合成模型的參數,對語音合成模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210738396.4/2.html,轉載請聲明來源鉆瓜專利網。





