[發明專利]混合語音的合成方法、系統、電子設備及介質在審
| 申請號: | 202211542189.8 | 申請日: | 2022-12-02 |
| 公開(公告)號: | CN115862588A | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 周明康;羅超;王俊杰;鄒宇;王清 | 申請(專利權)人: | 攜程旅游信息技術(上海)有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08;G10L13/04 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 羅朗;林嵩 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 混合 語音 合成 方法 系統 電子設備 介質 | ||
1.一種混合語音的合成方法,其特征在于,所述合成方法包括:
根據待合成文本生成對應國際音標的待合成文本向量;
獲取目標說話人的目標聲紋特征;
將所述待合成文本向量和所述目標聲紋特征輸入語音合成模型,得到所述待合成文本對應的合成音頻;所述語音合成模型包括聲學模型和聲碼器模型,所述聲學模型基于變分自編碼器構成,所述聲學模型的輸出與所述聲碼器模型的輸入連接。
2.根據權利要求1所述的混合語音的合成方法,其特征在于,所述聲學模型包括文本編碼器、第一全連接層、對齊搜索器、時長預測器、解碼器、第二全連接層和第一判別器;所述聲學模型利用訓練文本向量、訓練聲紋特征和訓練聲學特征訓練得到,包括:
采用所述文本編碼器從所述訓練文本向量中提取訓練文本特征;
采用所述第一全連接層將所述訓練文本特征和所述訓練聲紋特征處理為對應文本特征和聲紋特征的第一隱變量,其中,隱變量為多維高斯分布的均值和方差;
采用所述對齊搜索器建立所述第一隱變量與所述訓練聲學特征之間的對應關系;
采用所述時長預測器根據所述訓練文本特征、所述訓練聲紋特征和所述對應關系預測時長信息;其中,所述時長信息還用于在推理預測階段時反向輸入至所述對齊搜索器以學習所述對應關系;
采用所述解碼器根據所述對應關系將所述第一隱變量轉換成對應聲學特征的第二隱變量;
采用所述第二全連接層將所述第二隱變量處理為合成聲學特征;
采用所述第一判別器計算所述合成聲學特征與所述訓練聲學特征的第一損失度,并在所述第一損失度不滿足第一預設條件時進行迭代處理,直至所述第一損失度滿足所述第一預設條件以得到所述聲學模型。
3.根據權利要求2所述的混合語音的合成方法,其特征在于,所述聲碼器模型包括生成器和第二判別器,所述聲碼器模型利用所述聲學模型輸出的合成聲學特征、訓練聲紋特征和訓練音頻訓練得到,包括:
采用所述生成器將所述合成聲學特征轉換為對應所述訓練聲紋特征的合成音頻;
采用所述第二判別器計算所述合成音頻與所述訓練音頻的第二損失度,并在所述第二損失度不滿足第二預設條件時進行迭代處理,直至所述第二損失度滿足所述第二預設條件以得到所述聲碼器模型。
4.根據權利要求1所述的混合語音的合成方法,其特征在于,所述根據待合成文本生成對應國際音標的待合成文本向量的步驟包括:
對所述待合成文本進行正則化處理;
根據國際音標發音字典將正則化處理后的待合成文本轉換為對應國際音標的音素;
通過embedding層將所述音素轉換成對應的所述待合成文本向量。
5.一種混合語音的合成系統,其特征在于,所述合成系統包括生成模塊、獲取模塊和語音合成模塊:
生成模塊,用于根據待合成文本生成對應國際音標的待合成文本向量;
獲取模塊,用于獲取目標說話人的目標聲紋特征;
語音合成模塊,用于將所述待合成文本向量和所述目標聲紋特征輸入語音合成模型,得到所述待合成文本對應的合成音頻;所述語音合成模型包括聲學模型和聲碼器模型,所述聲學模型基于變分自編碼器構成,所述聲學模型的輸出與所述聲碼器模型的輸入連接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于攜程旅游信息技術(上海)有限公司,未經攜程旅游信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211542189.8/1.html,轉載請聲明來源鉆瓜專利網。





