[發明專利]一種中英文混合的語音合成方法及裝置有效
| 申請號: | 202011040833.2 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112151005B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 王昆;朱海;周琳珉;劉書君;展華益 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08;G10L19/16 |
| 代理公司: | 四川省成都市天策商標專利事務所(有限合伙) 51213 | 代理人: | 張秀敏 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中英文 混合 語音 合成 方法 裝置 | ||
1.一種中英文混合的語音合成方法,其特征在于:包括訓練階段和推理階段,所述訓練階段包括以下步驟:
S11.獲取多人中、英文語音訓練數據,并提取語音聲學特征,得到訓練數據集;
S12.對英文文本規范化處理,并通過CMU發音字典將英文文本轉換為CMU發音音素,再將CMU發音音素轉換為拼音音素;
S13.對中文文本規范化處理,并結合韻律分析,將中文漢字轉換為拼音音素;
S14.對訓練數據集生成代表所屬語言類別的語言標記以及對應說話人識別向量;
S15.將轉換為拼音音素的文本、語言標記、語音聲學特征、說話人識別向量,共同輸入到語音合成模型進行訓練,得到訓練好的語音合成模型;
所述推理階段包括以下步驟:
S21.對待合成文本進行規范化處理,并對中英文進行區分,得到中文文本和英文文本;
S22.對步驟S21得到的中文文本采用韻律分析,并將中文漢字轉換為拼音音素;
S23.將步驟S21得到的英文文本轉換為CMU發音音素,再將CMU發音音素映射為拼音音素;
S24.對待合成文本生成代表所屬語言類別的語言標記以及對應說話人識別向量;
S25.將處理為拼音音素的文本、語言標記、說話人識別向量,共同輸入到訓練好的語音合成模型,輸出聲學特征;
S26.將步驟S25得到的聲學特征經聲碼器輸出音頻。
2.根據權利要求1所述的中英文混合的語音合成方法,其特征在于:在步驟S11中:
中、英文的語音訓練數據包括:中文語音數據以及對應的中文文本,英文語音數據以及對應的英文文本,中英文混合的語音數據以及對應的中英文混合文本;提取的語音聲學特征包括梅爾頻譜特征。
3.根據權利要求1所述的中英文混合的語音合成方法,其特征在于:在步驟S12中:
對非法字符進行剔除;將英文文本統一為ASCII編碼;將英文字符統一為小寫字母;對英文縮寫進行單詞拓展;利用CMU發音字典將每個英文單詞轉換為CMU的發音音素,若單詞不在CMU的字典,則將該句文本以及對應的語音從訓練數據剔除;創建CMU發音音素與拼音音素的映射字典;通過映射字典將CMU發音音素轉換為拼音音素。
4.根據權利要求1所述的中英文混合的語音合成方法,其特征在于:在步驟S13中:
對中文文本進行規范化處理,篩選出非法字符,對合法輸入進行分詞、詞性標注,并將提取的綜合語言學特征輸入到韻律預測模型,獲得停頓級別標注;將中文漢字轉換為拼音標記,再將拼音標記轉換為對應的拼音音素。
5.根據權利要求1所述的中英文混合的語音合成方法,其特征在于:在步驟S14中:
語言標記的長度與轉換為音素后的文本步長一致;屬同一類語言的語音數據其標記的值相等;特殊字符采取其他標記;說話人識別向量由經過預訓練的多說話人識別模型生成,用于編碼說話人信息。
6.根據權利要求1所述的中英文混合的語音合成方法,其特征在于:在步驟S15中:
文本對應的語音聲學特征包括梅爾頻譜特征;經處理的拼音音素文本經過詞嵌入網絡層生成了文本向量,將文本向量與語言標記一起輸入到編碼層網絡;再將編碼層網絡的輸出與說話人識別向量一起輸入到解碼層網絡,最后輸出聲學特征;模型網絡結構包括但不限于目前主流的端到端Tacotron模型。
7.根據權利要求1所述的中英文混合的語音合成方法,其特征在于:在步驟S21-S25中:
推理階段的語音合成模型參數由訓練階段得到,并且網絡結構一致;推理階段的中、英文語音文本的處理方式與訓練階段一致,不同點在于,若文本中的英文單詞不存在于CMU發音字典,則將該單詞看作分開的英文字母,并將英文字母轉換為CMU發音字典,進而轉換為拼音音素。
8.根據權利要求1所述的中英文混合的語音合成方法,其特征在于:在步驟S26中:
采用的聲碼器包括WaveNET、WavRNN、MelGAN。
9.一種中英文混合的語音合成裝置,其特征在于,所述裝置通過權利要求1所述的方法實現中英文混合的語音合成,所述裝置包括:
文本處理模塊,用于將中英文文本規范化處理,并且轉換為統一的拼音音素表達方式;
信息編碼模塊,用于對中、英文生成代表不同所屬語言類別的語言標記以及對應說話人的說話人識別向量;
聲學特征輸出模塊,用于輸入經處理為拼音音素的文本、語言標記、說話人識別向量,輸出語音的聲學特征;
聲碼器模塊,用于輸入語音的聲學特征,輸出音頻;
所述裝置利用CMU發音字典以及CMU發音與拼音音素的映射字典,將文本統一為拼音音素表達方式;同時為了區別中、英文發音特征,加入了區別語言的語言標記;為了區別說話人特征,加入了代表說話人信息的說話人識別向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011040833.2/1.html,轉載請聲明來源鉆瓜專利網。





