[發明專利]基于自適應高斯聚類的非平行文本條件下的語音轉換方法有效
| 申請號: | 201710474281.8 | 申請日: | 2017-06-21 |
| 公開(公告)號: | CN107301859B | 公開(公告)日: | 2020-02-21 |
| 發明(設計)人: | 李燕萍;左宇濤 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/07;G10L15/14;G10L17/02;G10L21/007;G10L25/51;G10L19/032 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 朱小兵 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自適應 高斯聚類 平行 文本 條件下 語音 轉換 方法 | ||
1.一種基于自適應高斯聚類的非平行文本條件下的語音轉換方法,其特征在于,包括訓練階段和轉換階段,其中所述訓練階段包括如下步驟:
步驟1,輸入源說話人和目標說話人的非平行訓練語料;
步驟2,使用AHOcoder語音分析模型分別提取源說話人的非平行訓練語料的MFCC特征參數X、目標說話人的非平行訓練語料的MFCC特征參數Y,以及源語音基頻log f0X和目標語音基頻log f0Y;
步驟3,對步驟2中的MFCC特征參數X、Y,進行單元挑選和聲道長度歸一化相結合的語音特征參數對齊和動態時間規整,從而將非平行語料轉變成平行語料;
步驟4,使用期望最大化EM算法進行自適應混合高斯模型AGMM訓練,AGMM訓練結束,得到后驗條件概率矩陣P(X|λ),并保存AGMM參數λ;
步驟5,利用步驟3得到的源語音特征參數X和目標語音特征參數Y,使用步驟4中的后驗條件概率矩陣P(X|λ)進行雙線性頻率彎折BLFW+幅度調節AS訓練,得到頻率彎折因子α(x,λ)和幅度調節因子s(x,λ),從而構建BLFW+AS轉換函數;使用對數基頻的均值和方差建立源語音基頻log f0X和目標語音基頻log f0Y之間的基頻轉換函數;
所述轉換階段包括如下步驟:
步驟6,輸入待轉換的源說話人語音;
步驟7,使用AHOcoder語音分析模型提取源說話人語音的MFCC特征參數X′和對數基頻log f0X′;
步驟8,使用步驟4中AGMM訓練時得到的參數λ,求取后驗條件概率矩陣P′(X|λ);
步驟9,使用步驟5中得到的BLFW+AS轉換函數,求得轉換后的MFCC特征參數Y′;
步驟10,使用步驟5得到的基頻轉換函數由對數基頻log f0X′得到轉換后的對數基頻log f0Y′;
步驟11,使用AHOdecoder語音合成模型將轉換后的MFCC特征參數Y′和對數基頻logf0Y′合成得到轉換后的語音。
2.根據權利要求1所述的語音轉換方法,其特征在于,步驟3具體過程如下:
3-1)采用雙線性頻率彎折方法對源語音MFCC特征參數進行聲道長度歸一化處理;
3-2)對于給定的N個源語音MFCC特征參數矢量{Xk},通過公式(1)來動態地尋找N個目標語音特征參數矢量{Yk},使得距離耗費函數值C({Yk})最小;
C({Yk})=C1({Yk})+C2({Yk}) (1)
其中,C1({Yk})和C2({Yk})分別由下式表示:
其中,D(Xk,Yk)函數表示源語音和目標語音特征參數矢量之間的頻譜距離,D(Yk,Yk-1)函數表示經單元挑選的目標語音特征參數矢量之間的頻譜距離,參數γ表示在特征參數幀對齊的準確度和幀間連續性之間的平衡系數,且有0≤γ≤1;C1({Yk})表示的是源語音特征參數矢量和目標語音特征參數矢量之間的頻譜距離耗費函數,C2({Yk})表示的是經單元挑選的目標語音特征參數矢量之間頻譜距離耗費函數;
3-3)通過對公式(1)進行多元線性回歸分析,得到與源語音特征參數矢量對齊的目標語音特征參數序列集合即:
通過上述步驟,將非平行語料下的MFCC特征參數X、Y轉變為類似平行語料下的對齊特征參數集。
3.根據權利要求2所述的語音轉換方法,其特征在于,對于公式(4)的求解,使用維特比搜索方法來優化算法的執行效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710474281.8/1.html,轉載請聲明來源鉆瓜專利網。





