[發明專利]一種合成語音與文本對齊的方法、裝置及計算機儲存介質有效
| 申請號: | 202011313327.6 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112420016B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 王昆;朱海;周琳岷;劉書君 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08;G10L15/02;G10L15/26 |
| 代理公司: | 四川省成都市天策商標專利事務所(有限合伙) 51213 | 代理人: | 陳藝文 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 合成 語音 文本 對齊 方法 裝置 計算機 儲存 介質 | ||
1.一種合成語音與文本對齊的方法,其特征在于,包括:
在待合成文本的每個字后面加入位置標簽;
對帶位置標簽的文本進行文本預處理及音素轉換得到音素序列;
將音素序列輸入語音合成模型,預測音素的時長信息和聲學特征;
將聲學特征通過聲碼器轉換為合成語音;
累加位于每個位置標簽前面音素的時長信息,得到每個位置標簽在合成語音中的時間信息;
所述累加位于每個位置標簽前面音素的時長信息,得到每個位置標簽在合成語音中的時間信息的方法,包括:參考未剔除位置標簽的音素序列,計算每個位置標簽前面包含的音素,并累加這些音素的時長信息;每個字符在合成音頻中對應的起止點,分別為其前后位置標簽的時間信息。
2.根據權利要求1所述的合成語音與文本對齊的方法,其特征在于,所述對帶位置標簽的文本進行文本預處理的方法,包括:對帶位置標簽的文本中的非法字符進行剔除、文本規則化以及韻律預測,在進行文本預處理過程中,保持位置標簽在序列中的相對位置。
3.根據權利要求2所述的合成語音與文本對齊的方法,其特征在于,所述對帶位置標簽的文本進行音素轉換方法,包括:采用漢字轉拼音,拼音拆分成聲韻母音素的轉換方法,在進行音素轉換過程中,保持位置標簽在序列中的相對位置。
4.根據權利要求1所述的合成語音與文本對齊的方法,其特征在于,所述將音素序列輸入語音合成模型,預測音素的時長信息和聲學特征的方法,包括:將所述音素序列中的位置標簽剔除,并將音素序列編碼為數字序列,輸入語音合成模型;語音合成模型進行前向運算,輸出時長信息序列和聲學特征序列。
5.根據權利要求4所述的合成語音與文本對齊的方法,其特征在于,所述將音素序列輸入語音合成模型,預測音素的時長信息和聲學特征之前,還包括:對所述語音合成模型的制作。
6.根據權利要求5所述的合成語音與文本對齊的方法,其特征在于,所述語音合成模型的制作包括訓練數據獲取、輸入輸出特征提取、模型設計及模型訓練;
訓練數據包括音頻和標注信息,標注信息包括音素、韻律標記及每個音素的時長信息;
輸入特征為音素序列數值化后的序列,輸出特征包括每個音素的時長信息,以及基于音頻提取的Mel頻譜特征;
模型結構設計采用編碼器解碼器結構,輸入特征經嵌入編碼后,加上位置編碼的信息,送入編碼器,預測每個音素的時長信息,并通過解碼器輸出聲學特征,模型的損失函數設置為音素的預測時長信息與真實時長信息距離以及預測Mel頻譜與真實Mel頻譜距離的加權和;
模型的訓練通過梯度下降算法,最小化模型的損失函數,直至模型的損失函數收斂。
7.根據權利要求1所述的合成語音與文本對齊的方法,其特征在于,所述將聲學特征通過聲碼器轉換為合成語音的方法,包括:基于純數字信號處理的聲碼器;或基于人工神經網絡的聲碼器。
8.一種合成語音與文本對齊的裝置,其特征在于,包括:
標簽添加模塊,用于在待合成文本的每個字后面加入位置標簽;
音素轉換模塊,用于對帶位置標簽的文本進行文本預處理及音素轉換得到音素序列;
預測模塊,用于將音素序列輸入語音合成模型,預測音素的時長信息和聲學特征;
語音合成模塊,將聲學特征通過聲碼器轉換為合成語音;
標簽對齊模塊,用于累加位于每個位置標簽前面音素的時長信息,得到每個位置標簽在合成語音中的時間信息;
所述累加位于每個位置標簽前面音素的時長信息,得到每個位置標簽在合成語音中的時間信息的方法,包括:參考未剔除位置標簽的音素序列,計算每個位置標簽前面包含的音素,并累加這些音素的時長信息;每個字符在合成音頻中對應的起止點,分別為其前后位置標簽的時間信息。
9.一種計算機存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述合成語音與文本對齊方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011313327.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種廢舊子午輪胎的脫膠裝置
- 下一篇:一種基于隨機森林算法的資源分配方法





