[發明專利]混合語音的合成方法、系統、電子設備及介質在審

申請號：	202211542189.8	申請日：	2022-12-02
公開（公告）號：	CN115862588A	公開（公告）日：	2023-03-28
發明（設計）人：	周明康;羅超;王俊杰;鄒宇;王清	申請（專利權）人：	攜程旅游信息技術（上海）有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/08;G10L13/04
代理公司：	上海弼興律師事務所 31283	代理人：	羅朗;林嵩
地址：	201203 上海市浦東新***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	混合語音合成方法系統電子設備介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種混合語音的合成方法、系統、電子設備及介質，該合成方法包括：根據待合成文本生成對應國際音標的待合成文本向量；獲取目標說話人的目標聲紋特征；將待合成文本向量和目標聲紋特征輸入語音合成模型，得到合成音頻；語音合成模型包括聲學模型和聲碼器模型，聲學模型基于變分自編碼器構成，聲學模型的輸出與聲碼器模型的輸入連接。本發明通過將文本轉換為國際音標的文本向量，有利于不同語音的聯合訓練，將文本向量和聲紋特征輸入語音合成模型，利用變分自編碼器得到文本信息和音色信息的高斯分布，模擬出混合語音數據的效果，解決了因缺少混合語音數據而導致混合語音的合成模型訓練困難的問題，提高了混合語音的合成效果。

技術領域

本發明涉及語音處理技術領域，特別涉及一種混合語音的合成方法、系統、電子設備及介質。

背景技術

語音合成是一種將文本信息轉換為語音信息的技術，即將文字信息轉換為任意的可聽的語音，目前單語言的語音合成技術已經比較成熟，而對于混合語音的合成技術的研究還不成熟，例如中英文混合語音。隨著全球化的發展，國際交流越加頻繁，很多場景會出現混合語音的情況，然而目前缺少同一種音色能流利的說不同語言的數據集，從而難以訓練得到混合語音的合成模型。因此，如何在保持說話人一致性的條件下，用單語言數據建立多說話人、多語言的語言合成系統是一個難題。

發明內容

本發明要解決的技術問題是為了克服現有技術中由于缺少混合語音的數據而導致混合語音的合成難度大的缺陷，提供一種混合語音的合成方法、系統、電子設備及介質。

本發明是通過下述技術方案來解決上述技術問題：

根據本發明的第一方面，提供一種混合語音的合成方法，所述合成方法包括：

根據待合成文本生成對應國際音標的待合成文本向量；

獲取目標說話人的目標聲紋特征；

將所述待合成文本向量和所述目標聲紋特征輸入語音合成模型，得到所述待合成文本對應的合成音頻；所述語音合成模型包括聲學模型和聲碼器模型，所述聲學模型基于變分自編碼器構成，所述聲學模型的輸出與所述聲碼器模型的輸入連接。

較佳地，所述聲學模型包括文本編碼器、第一全連接層、對齊搜索器、時長預測器、解碼器、第二全連接層和第一判別器；所述聲學模型利用訓練文本向量、訓練聲紋特征和訓練聲學特征訓練得到，包括：

采用所述文本編碼器從所述訓練文本向量中提取訓練文本特征；

采用所述第一全連接層將所述訓練文本特征和所述訓練聲紋特征處理為對應文本特征和聲紋特征的第一隱變量，其中，隱變量為多維高斯分布的均值和方差；

采用所述對齊搜索器建立所述第一隱變量與所述訓練聲學特征之間的對應關系；

采用所述時長預測器根據所述訓練文本特征、所述訓練聲紋特征和所述對應關系預測時長信息；其中，所述時長信息還用于在推理預測階段時反向輸入至所述對齊搜索器以學習所述對應關系；