[發明專利]基于說話人模型對齊的非對稱語音庫條件下的語音轉換方法有效
| 申請號: | 201410399475.2 | 申請日: | 2014-08-14 |
| 公開(公告)號: | CN104217721B | 公開(公告)日: | 2017-03-08 |
| 發明(設計)人: | 宋鵬;趙力;金赟 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L13/02;G10L21/00;G10L25/24 |
| 代理公司: | 江蘇永衡昭輝律師事務所32250 | 代理人: | 王斌 |
| 地址: | 210096*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 說話 模型 對齊 對稱 語音 條件下 轉換 方法 | ||
1.一種基于說話人模型對齊的非對稱語音庫條件下的語音轉換方法,其特征在于:針對非對稱語音庫的情況,通過引入輔助向量來尋找源說話人和目標說話人之間的轉換函數,即先由源說話人和目標說話人的頻譜特征分別訓練得到各自的說話人模型,然后利用說話人模型中的均值與協方差找到源說話人特征向量和輔助向量之間的轉換函數,以及輔助向量和目標說話人特征向量之間的轉換函數,最后利用這兩個轉換函數求得源說話人和目標說話人之間的轉換函數;在語音轉換的過程中,使用說話人模型對齊的方法,以及將說話人模型對齊與高斯混合模型相融合的方法,最終通過STRAIGHT語音分析/合成模型對轉換后的頻譜特征進行合成得到轉換語音。
2.根據權利要求1所述的基于說話人模型對齊的非對稱語音庫條件下的語音轉換方法,其特征在于,所述的說話人模型對齊方法的步驟具體如下:
步驟Ⅰ,訓練得到說話人模型:運用STRAIGHT模型提取源說話人和目標說話人的頻譜特征,獲得源說話人和目標說話人的特征向量,分別記為x和y;通過期望最大化方法分別訓練得到源說話人模型和目標說話人模型,記為GMMx和GMMy,具體為:
其中,p(x)對應著GMMx,p(y)對應著GMMy,N(·)表示高斯分布,和分別表示GMMx和GMMy模型的第i個高斯分量,M表示高斯分量的個數,和表示第i個高斯分量的均值向量,和表示第i個高斯分量的協方差矩陣,ωi和vi表示第i個高斯分量所占的權重,且滿足
步驟Ⅱ,引入輔助向量并初始化:引入輔助向量序列X′={x′j},其中j表示第j幀,且j=1,2,...,J,J表示幀數,且J≥1;X′用于每一次迭代搜索后的中間序列,并運用期望最大化方法訓練得到輔助向量序列的模型,記作GMMx′,具體表達式為:
其中,x′表示輔助向量,ωi表示第i個高斯分量所占的權重,且滿足GMMx′的參數為并且初始化設定為
步驟Ⅲ,說話人模型的相似度計算:GMMx和GMMy不同高斯分量之間的相似度用矩陣D表示如下:
其中,dij表示GMMx的第i個高斯分量與GMMy的第j個高斯分量之間的相似度,并采用對稱的KL?Divergence來描述兩個高斯分量fi(x)和fj(x)之間的相似度,具體為
其中,
步驟Ⅳ,最近鄰搜索:對GMMx′的每一高斯分量s,通過相似度矩陣D來尋找到GMMy中與其相似度最高的高斯分量σ(s);類似地,對GMMy中的每一高斯分量t,通過D找到其在GMMx′中對應的相似度最高的分量ψ(t);
步驟Ⅴ,轉換:通過最近鄰搜索,分別得到兩個均值向量對序列,分別記為和其中,s=1,2,…,M,t=1,2,…,M;和分別表示GMMx′第s個高斯分量的輔助均值向量及其在GMMy中對應的高斯分量σ(s)所對應的均值向量,和分別表示GMMy第t個高斯分量的輔助均值向量及其在GMMx′中對應的高斯分量ψ(t)所對應的均值向量;去除和中重復的序列對,并連接在一起得到一個完整的均值向量對序列{μx′,μy};利用最小二乘估計法計算得到μx′和μy之間的映射函數:
fmu(μx′)=Aμx′+b????(5)
其中,T表示矩陣轉置,b=μy-Aμx′;
將表達式(5)所示的映射函數直接用于輔助向量與目標說話人特征向量之間的轉換,
則轉換函數如下:
fmu(x′)=Ax′+b????(6)
輔助向量x′通過下式得到,具體為:
x′=fmu(x′)????(7)
源說話人特征向量x和輔助向量x′之間的轉換函數為:
x′=fsa(x)=Cx+d????(8)
其中,
步驟Ⅵ,通過期望最大化方法對輔助向量序列X′重新進行模型訓練得到GMMx′,重復上述步驟Ⅲ~Ⅴ,直到GMMx′和GMMy之間的相似度滿足收斂條件其中δ為一經驗常數。
3.根據權利要求1所述的基于說話人模型對齊的非對稱語音庫條件下的語音轉換方法,其特征在于,所述的說話人模型對齊與高斯混合模型相融合方法的具體步驟如下:
步驟Ⅰ,經過說話人模型的對齊訓練,獲得輔助向量序列X′;采用聯合概率密度對輔助向量x′和目標說話人特征向量y組成的特征序列對
其中,αi表示第i個高斯分量所占的權重,且滿足
步驟Ⅱ,采用最小均方誤差法計算得到輔助向量和目標說話人特征向量之間的轉換函數:
其中,p(i|x′)表示x′屬于第i個高斯分量的后驗概率,滿足
其中,αj表示第j個高斯分量所占的權重,且滿足bi(x′)和bj(x′)分別表示第i個高斯分量和第j個高斯分量;
步驟Ⅲ,根據表達式(8)和表達式(10)得到源說話人特征向量與目標說話人特征向量之間的轉換函數:y=F(x)=fat(fsa(x))。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410399475.2/1.html,轉載請聲明來源鉆瓜專利網。





