[發明專利]非平行文本條件下基于VAE與i-vector的多對多語音轉換系統有效
| 申請號: | 201811597896.0 | 申請日: | 2018-12-26 |
| 公開(公告)號: | CN109584893B | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 李燕萍;許吉良;張燕 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L25/18;G10L25/21;G10L25/30;G10L13/02 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 文本 條件下 基于 vae vector 語音 轉換 系統 | ||
本發明提供一種非平行文本條件下基于VAE與身份特征向量(i?vector)的多對多語音轉換系統,在非平行語料條件下,基于變分自編碼模型(Variational Autoencoding,VAE)實現語音轉換,其中說話人的表征加入了說話人身份特征i?vector,能夠有效地提升轉換后語音的個性相似度。本發明的優點包括三個方面:1)解除對平行文本的依賴,并且訓練過程不需要任何對齊操作;2)可以將多個源?目標說話人對的轉換系統整合在一個轉換模型中,即實現多對多轉換;3)i?vector特征的引入能夠豐富說話人身份信息,從而有效提高轉換語音的個性相似度,改善轉換性能。
技術領域
本發明屬于信號處理技術領域,具體涉及一種非平行文本條件下基于VAE與i-vector的多對多語音轉換系統。
背景技術
語音轉換技術經過多年的研究,已經涌現了很多的經典轉換方法,其中包括高斯混合模型(Gaussian Mixed Model,GMM)、頻率彎折、深度神經網絡(DNN)以及基于單元選擇的方法等。但是這些語音轉換方法大多需要使用平行語料庫進行訓練,建立源語音和目標語音頻譜特征之間的轉換規則。
基于變分自編碼器(VAE)模型的語音轉換方法是直接利用說話人的身份標簽建立語音轉換的系統,這種語音轉換系統在模型訓練時不需要對源說話人和目標說話人的語音幀進行對齊,可以解除對平行文本的依賴。但是由于one-hot特征僅僅是一個說話人的身份標簽,而不攜帶有豐富的個性信息,因此基于one-hot特征的VAE模型得到的轉換語音個性相似度不夠理想,這也是該算法主要不足之一。
發明內容
本發明的目的在于:提供一種非平行文本條件下基于VAE與i-vector的多對多語音轉換系統,該系統能解除對平行文本的依賴,實現多說話人對多說話人的語音轉換,有效提高系統的性能。
為了達到以上目的,提供一種非平行文本條件下基于VAE與i-vector的多對多語音轉換系統,包括如下步驟,
S1、提取每個說話人的語句的頻譜特征,諧波包絡特征和對數基頻;
S2、提取每個說話人的身份特征向量i-vector;
S3、以S1中提取的頻譜特征、S2中提取的說話人身份特征向量和說話人標簽作為VAE模型的輸入數據,迭代訓練VAE模型,訓練得到說話人語音轉換模型;
S4、提取每個源說話人的語句的頻譜特征,諧波包絡特征和對數基頻;
S5、將源說話人頻譜特征、目標說話人標簽及目標說話人身份特征向量輸入訓練好的語音轉換模型,獲取轉換后的模型輸出即為目標說話人的語音頻譜特征;
S6、源說話人語句特征中對數基頻通過對數線型域變換轉換為目標說話人的基頻;
S7、將目標說話人語音頻譜特征,S4中源說話人的諧波包絡與目標說話人的基頻輸入語音合成模型獲取目標說話人語音。
本發明的優選方案是:語句的特征包括每一幀的頻譜包絡sp′、語音對數基頻logf0、諧波頻譜包絡ap,計算每一幀語音的能量en,并對頻譜包絡重新計算,即sp=log10sp′/en,語音采樣頻率為fs=16000。
優選地,所述頻譜特征Xn為說話人的語音頻譜特征sp,即Xn=[sp(n),n=1,...N]。
優選地,在模型訓練階段,將說話人頻譜特征X輸入VAE模型的Encoder端,并將Encoder輸出的說話人無關的語義特征z、說話人標簽和說話人身份特征向量輸入VAE模型的Decoder端。其中,說話人標簽和說話人身份特征向量作為Decoder訓練的監督數據。
優選地,所述頻譜特征Xn為說話人的語音頻譜特征sp,即
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811597896.0/2.html,轉載請聲明來源鉆瓜專利網。





