[發明專利]一種韻律控制語音合成方法、系統及電子裝置有效
| 申請號: | 202010705955.2 | 申請日: | 2020-07-21 |
| 公開(公告)號: | CN111754976B | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 張鵬遠;尚增強;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04;G10L13/10 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 韻律 控制 語音 合成 方法 系統 電子 裝置 | ||
1.一種韻律控制語音合成方法,包括:
對待合成文本進行正則獲取語言學特征和音素序列;
將所述音素序列輸入Tacotron2模型的編碼器;
將編碼結果和所述語言學特征輸入韻律參數預測模型,預測待合成文本的韻律參數,獲得音素級別的時長和DCT參數化基頻;
將所述音素級別時長和DCT參數化基頻映射為二維向量,與所述編碼結果拼接輸入Tacotron2的解碼器,輸出韻律聲學特征序列;
將所述韻律聲學特征序列送入聲碼器合成語音信號。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括預訓練Tacotron2模型,包括:
以音素序列為輸入,以幀級別的多維聲學特征為輸出訓練Tacotron2模型,獲得具有音素序列與所述聲學特征的對應關系的上下文權重矩陣。
3.根據權利要求2所述的方法,其特征在于,所述預測待合成文本的韻律參數,包括:
基于預訓練Tacotron2模型獲得的所述上下文權重矩陣,使用以下公式獲得音素對應的幀數:
Ni=∑jWij
其中Ni表示所述音素序列中第i個音素對應的幀數,Wij表示第j幀聲學特征對應于第i個音素的概率;
計算log(Ni)獲得所述音素級別的時長;
計算N階的離散余弦變換的系數e=[e0,e1...eT-1]T的基頻為:
其中,D(t)為逆離散余弦變換時的第t幀的向量:
4.根據權利要求1所述的方法,其特征在于,所述方法還包括Tacotron2網絡和韻律參數預測模型聯合訓練的步驟,具體包括:
以幀級別的音素序列和音素級別的語言學特征為輸入,以多維聲學特征為輸出;
以訓練過程中最小絕對誤差作為韻律參數預測損失函數;
以訓練過程中輸出的聲學特征與幀級別聲學特征的最小均方誤差作為聲學特征重建損失;
將韻律參數預測損失函數與聲學特征重建損失加權求和作為最終損失函數;
根據最終損失函數更新網絡參數,對Tacotron2模型和韻律參數預測模型進行聯合訓練;
在前50epoch的訓練中將損失權重設為零,在訓練時損失權重不斷增加,到0.1為止。
5.根據權利要求2或4所述的方法,其特征在于,在所述預訓練Tacotron2模型或聯合訓練之前還包括:
從單一說話人語音數據庫提取幀級別的音素序列、多維聲學特征以及音素級別的語言學特征;
其中,所述多維聲學特征提取時的幀移為10ms;
所述多維聲學特征為20維,包括:18維bark倒譜系數、1維基頻參數和1維基頻相關系數;
所述音素級別的語言學特征為5維,包括:當前音素在字中的位置、當前字在詞中的位置,當前詞的詞性,句子中詞語的個數和當前句子的類型。
6.根據權利要求1所述的方法,其特征在于,所述對待合成文本進行正則獲取語言學特征和音素序列,包括:
利用分詞工具獲得所述待合成文本的分詞結果和詞性標注,提取語言學特征;
通過字音轉換獲得所述待合成文本的音素序列。
7.根據權利要求1所述的方法,其特征在于,將所述音素級別時長和DCT參數化基頻映射為二維向量,與所述編碼結果拼接輸入解碼器,輸出韻律聲學特征序列,包括:
將所述音素級別時長和DCT參數化基頻降維映射為二維向量,與所述編碼結果拼接在一起后送入解碼器,輸出韻律聲學特征序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010705955.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種負壓封裝裝置
- 下一篇:一種浸入式圓盤漿液凈化裝置





