[發明專利]基于說話人模型對齊的非對稱語音庫條件下的語音轉換方法有效
| 申請號: | 201410399475.2 | 申請日: | 2014-08-14 |
| 公開(公告)號: | CN104217721B | 公開(公告)日: | 2017-03-08 |
| 發明(設計)人: | 宋鵬;趙力;金赟 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L13/02;G10L21/00;G10L25/24 |
| 代理公司: | 江蘇永衡昭輝律師事務所32250 | 代理人: | 王斌 |
| 地址: | 210096*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 說話 模型 對齊 對稱 語音 條件下 轉換 方法 | ||
技術領域
本發明涉及一種語音轉換技術,尤其是涉及一種非對稱語音庫條件下的語音轉換方法,屬于語音信號處理技術領域。
背景技術
語音轉換指的是改變一個說話人(源說話人)的語音個性特征使之變為另一個說話人(目標說話人)的語音個性特征的一種技術。語音轉換技術有著廣泛的應用前景,如用于個性化的語音合成、在保密通信領域用于說話人身份的偽裝、在醫療領域用作受損語音的恢復、在低比特率語音通信中的接收端用于說話人個性特征的恢復等。
為了實現高質量的說話人個性特征轉換,國內外學者提出了很多的語音轉換方法,如碼本映射法、高斯混合模型(Gaussian?mixture?model,GMM)法、人工神經網絡法、頻率彎折法、隱馬爾科夫模型法等。然而,這些方法都是針對對稱(相同文本內容)語音庫的情況提出來的,但是在實際情況中,對稱的語音庫很難直接獲取。因此許多學者又提出了基于非對稱語音庫的語音轉換方法,如最大似然約束自適應法、最近鄰循環迭代(Iterative?combination?of?a?Nearest?Neighbor?search?step?and?a?Conversion?step?Alignment,INCA)方法、基于說話人自適應的語音轉換方法等。但是這些方法仍然存在著較大的局限性:如最大似然約束自適應法需要預先訓練得到參考說話人的轉換函數;INCA方法是建立在特征空間中鄰近的頻譜特征對應著相同音素的假設基礎上,而該假設在實際中往往并不十分準確,同時這種訓練方法需要較多的訓練語句;基于說話人自適應的語音轉換方法依賴于第三方說話人訓練模型。因此,這些問題都在很大程度上限制了非對稱語音庫條件下的語音轉換技術的實際應用。
發明內容
本發明的目的是針對非對稱語音庫情況下的語音轉換,提出一種基于說話人模型對齊的非對稱語音庫條件下的語音轉換方法。
本發明的技術方案為:基于說話人模型對齊的非對稱語音庫條件下的語音轉換方法,該方法針對非對稱語音庫的情況,通過引入輔助向量來尋找源說話人和目標說話人之間的轉換函數,即先由源說話人和目標說話人的頻譜特征分別訓練得到各自的說話人模型,然后利用說話人模型中的均值與協方差找到源說話人特征向量和輔助向量之間的轉換函數,以及輔助向量和目標說話人特征向量之間的轉換函數,最后通過所求得的兩個轉換函數之間的函數關系找到源說話人和目標說話人之間的轉換函數;在語音轉換的過程中,使用說話人模型對齊的方法,以及將說話人模型對齊與高斯混合模型相融合的方法,最終通過STRAIGHT語音分析/合成模型對轉換后的頻譜特征進行合成得到轉換語音。
基于說話人模型對齊的語音轉換方法的具體步驟如下:
步驟Ⅰ,模型訓練:運用STRAIGHT模型提取源說話人和目標說話人的頻譜特征,獲得源說話人和目標說話人的特征向量,分別記為x和y;通過期望最大化(Expectation?maximization,EM)方法分別訓練得到源說話人模型和目標說話人模型,記為GMMx和GMMy,這里采用高斯混合模型(Gaussian?mixture?model,GMM)對GMMx和GMMy進行建模,具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410399475.2/2.html,轉載請聲明來源鉆瓜專利網。





