[發明專利]一種融合韻律和個人信息的中文語音合成方法有效
| 申請號: | 202110667531.6 | 申請日: | 2021-06-16 |
| 公開(公告)號: | CN113393829B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 湯步洲;付滬豪;劉超 | 申請(專利權)人: | 哈爾濱工業大學(深圳) |
| 主分類號: | G10L13/10 | 分類號: | G10L13/10;G10L25/30 |
| 代理公司: | 深圳市添源創鑫知識產權代理有限公司 44855 | 代理人: | 覃迎峰 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 韻律 個人信息 中文 語音 合成 方法 | ||
1.一種融合韻律和個人信息的中文語音合成方法,其特征在于,包括如下步驟:
步驟1:將輸入文本、輸入文本對應的拼音和輸入文本的詞法句法特征輸入層次化韻律預測模型,得到輸入文本的多層韻律信息;
步驟2:將輸入文本對應的拼音、聲調輸入到聲學模型,得到輸入文本對應的語音特征譜圖;
步驟3:將多層韻律信息引入聲學模型,將層次化韻律預測模型和聲學模型進行聯合形成新的聲學模型;
步驟4:在新的聲學模型中引入說話人信息,形成個性化語音合成模型,支持多人個性化語音合成;
在所述步驟1中,所述層次化韻律預測模型包括編碼模塊和多任務學習模塊,所述編碼模塊:將輸入文本輸入預訓練的BERT語言模型,得到文本的上下文表示,將其與輸入文本對應的拼音、詞法句法特征表示進行拼接,然后經多層全連接網絡進行編碼;所述多任務學習模塊是一個層次化的基于雙向門控循環網絡的條件隨機場模型:將文本韻律分為四層,對于每一層的韻律,采用將低層韻律預測結果和編碼層輸出經全連接網絡轉換后輸入條件隨機場模型BiGRU-CRF預測下一層的方式實現。
2.根據權利要求1所述的中文語音合成方法,其特征在于,在所述步驟2中,所述聲學模型包括編碼單元和解碼模塊,
所述編碼單元:將輸入語句編碼成上下文語義表示,在Transformer模塊的基礎上引入一個門控線性單元來增強對信息流的控制和三個卷積模塊來建模局部信息;
所述解碼模塊:自回歸生成最終的語音特征譜圖;包括一個注意力機制模塊,通過注意力機制學習輸入序列和輸出序列的映射關系。
3.根據權利要求2所述的中文語音合成方法,其特征在于,所述門控線性單元用于對信息流進行控制;所述三個卷積模塊分別為兩個仿Inception網絡分支結構和深度可分離卷積模塊;
所述仿Inception網絡分支結構:用于對特征層面進行多粒度融合;
所述深度可分離卷積模塊:用于對特征層面的深度和空間的信息進行解耦。
4.根據權利要求2所述的中文語音合成方法,其特征在于,在所述注意力機制模塊中,采用基于前向的注意力機制保持聲學模型的注意力對齊路徑單調遞進,同時使用對角注意力損失來促進聲學模型的收斂速度。
5.根據權利要求4所述的中文語音合成方法,其特征在于,在所述注意力機制模塊中,前向注意力機制保證當前解碼時刻的注意力狀態只能由前一時刻前一編碼步位置或者相同編碼步位置的注意力狀態轉移而來,確保了聲學模型在學習對齊時,注意力權重對齊路徑保持單調遞進。
6.根據權利要求1-5任一項所述的中文語音合成方法,其特征在于,通過三種優化步驟對聲學模型進行優化,三種優化步驟分別為差分損失優化步驟、波形損失優化步驟、混合輸入優化步驟,
所述差分損失優化步驟:首先將真實譜圖和合成譜圖經過一階差分計算得到對應處理圖像,然后再對其兩者進行均方差損失操作;
所述波形損失優化步驟:首先通過聲碼器將真實譜圖和語音特征譜圖轉換成對應的波形,然后計算兩個波形之間的失真程度當作波形損失,使得聲學模型生成的譜圖經過相位重建之后的音頻更接近原始音頻;
所述混合輸入優化步驟:將預測信息和真實信息混合作為解碼模塊的輸入。
7.根據權利要求6所述的中文語音合成方法,其特征在于,在所述混合輸入優化步驟中,在訓練時刻,在每一個解碼時刻采取上一時刻的預測值和該時刻的真實值的拼接作為解碼模塊的輸入;在推理時刻,在每一個解碼時刻,將上一時刻的預測值進行復制拼接的值作為解碼模塊的輸入。
8.一種中文語音合成系統,其特征在于,包括:存儲器、處理器以及存儲在所述存儲器上的計算機程序,所述計算機程序配置為由所述處理器調用時實現權利要求1-7中任一項所述的中文語音合成方法的步驟。
9.一種計算機可讀存儲介質,其特征在于:所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序配置為由處理器調用時實現權利要求1-7中任一項所述的中文語音合成方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳),未經哈爾濱工業大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110667531.6/1.html,轉載請聲明來源鉆瓜專利網。





