[發明專利]一種語音合成方法以及語音合成系統在審
| 申請號: | 202110048322.3 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112908294A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 肖朔 | 申請(專利權)人: | 杭州倒映有聲科技有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/033 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張靜 |
| 地址: | 311100 浙江省杭州市余杭區五*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 合成 方法 以及 系統 | ||
本發明實施例提供了一種語音合成方法以及語音合成系統,該語音合成方法首先將待輸入文本轉換成文本編碼向量,將待輸入梅爾聲譜轉換成風格編碼向量。然后基于當前時間周期的待輸入梅爾聲譜、上一時間周期的所述文本編碼向量以及上一時間周期的所述風格編碼向量,確定出目標梅爾聲譜,之后將所述目標梅爾聲譜轉換成音頻信號。可見,在本方案中,增加了風格編碼器,通過風格編碼器將待輸入梅爾聲譜轉換成風格編碼向量,進而實現了合成語音的朗讀風格、音色的控制。并且,本方案中的語音合成系統在前期已經進行了大量的通用特征的訓練學習,因此在新增朗讀風格和音色時,風格編碼器只需少量的音頻樣本,進而降低了合成成本。
技術領域
本發明涉及合成技術領域,具體涉及一種語音合成方法以及語音合成系統。
背景技術
隨著科技的不斷發展,用戶對語音合成質量的要求也越來越高。目前,語音合成根據其合成原理不同,通常分為兩大類,一類為拼接型語音合成,另一類為神經網絡型語音合成。
其中,拼接型語音合成是將語料庫切碎,根據需要合成的文本,經過算法重新拼合,來實現機器朗讀。神經網絡型語音合成是目前較為常用的一種合成方法,其將預測的語音頻譜特征輸入到聲碼器中,進行語音信號的預測重建。
然而,發明人發現,采用拼接型語音合成方式合成的音頻中,會存在明顯的合成卡頓、不連貫,且無法控制合成的朗讀風格、音色,并要求訓練所需的語料庫至少大于數十小時以上的目標發音人音頻,制作成本高。而采用神經網絡型語音合成方式合成的音頻中,也無法控制合成的朗讀風格以及朗讀音色,且需要用參數量極大的深度網絡作為聲碼器,進而導致語音合成無法實時、低成本的合成。
因此,如何提供一種語音合成方法,既能控制合成的朗讀風格音色,又能降低合成成本,是本領域技術人員亟待解決的一大技術難題。
發明內容
有鑒于此,本發明實施例提供了一種語音合成方法,既能控制合成的朗讀風格音色,又能降低合成成本。
為實現上述目的,本發明實施例提供如下技術方案:
一種語音合成方法,包括:
將待輸入文本轉換成文本編碼向量;
將待輸入梅爾聲譜轉換成風格編碼向量;
基于當前時間周期的待輸入梅爾聲譜、上一時間周期的所述文本編碼向量以及上一時間周期的所述風格編碼向量,確定出目標梅爾聲譜;
將所述目標梅爾聲譜轉換成音頻信號。
可選的,所述將待輸入文本轉換成文本編碼向量,包括:
對所述待輸入文本進行嵌入處理,生成序列形式的文本向量;
將所述文本向量輸入預設卷積神經網絡,并將所述預設卷積神經網絡的輸出數據輸入預設循環神經網絡,由所述預設循環神經網絡輸出預設長度的文本編碼向量。
可選的,所述將待輸入梅爾聲譜轉換成風格編碼向量,包括:
將所述待輸入梅爾聲譜經過預設卷積神經網絡、預設循環神經網絡以及預設全連接網絡,轉換成編碼序列;
將所述編碼序列經過多頭注意力機制,生成相對于每個預設特征向量的加權系數,所述預設特征向量表征朗讀風格;
基于所述加權系數,對所述預設特征向量進行加權處理,生成預設長度的風格編碼向量。
可選的,所述基于當前時間周期的待輸入梅爾聲譜、上一時間周期的所述文本編碼向量以及上一時間周期的所述風格編碼向量,確定出目標梅爾聲譜,包括:
將所述當前時間周期的待輸入梅爾聲譜輸入預處理網絡,由所述預處理網絡生成編碼的梅爾聲譜特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州倒映有聲科技有限公司,未經杭州倒映有聲科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110048322.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:聚酯石籠網繞線裝置
- 下一篇:一種種子茶的制備工藝及其設備





