[發明專利]基于高斯過程輸出后濾波的語音轉換方法在審
| 申請號: | 201611189592.1 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN106782599A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 徐寧;鮑靜益;姚瀟;湯一彬;蔣愛民;劉小峰 | 申請(專利權)人: | 河海大學常州校區 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/27 |
| 代理公司: | 南京縱橫知識產權代理有限公司32224 | 代理人: | 董建林 |
| 地址: | 213022 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 過程 輸出 濾波 語音 轉換 方法 | ||
技術領域
本發明涉及語音轉換技術,屬于語音識別與合成領域,特別是一種基于高斯過程輸出后濾波的語音轉換方法。
背景技術
語音轉換技術是語音信號處理領域近年來新興的研究分支,涵蓋了語音識別和語音合成等領域的內容,擬在保持語義內容不變的情況下,通過改變一個特定說話人(被稱為源說話人)的話音個性特征,使他(或她)說的話被聽者認為是另一個特定說話人(被稱為目標說話人)說的話。語音轉換的主要任務包括提取代表說話人個性的特征參數并進行數學變換,然后將變換后的參數重構成語音。在這過程中,既要保持重構語音的聽覺質量,又要兼顧轉換后的個性特征是否準確。
經過多年的發展,語音轉換領域已經涌現出一些高效實用的算法,其中以高斯混合模型為代表的統計轉換方法目前已儼然成為了該領域公認的標準。但是這類算法亦存在某些弊端,例如:由于高斯混合模型自身模型參數的原因,使得轉換后的譜參數過于平滑,導致不能準確地得到目標預測參數值,從而不能達到準確的轉換效果。
針對上述問題,目前已存在一些應對方案。例如,基于最大后驗概率的GMM轉換算法,考慮采用最大后驗概率自適應地構造轉換函數,來解決轉換后譜參數過平滑的問題;基于最大似然估計的GMM轉換算法,考慮通過引入全局方差的概念解決過平滑問題。
發明內容
本發明要解決的技術問題為:通過高斯過程對源與目標參數進行訓練得到映射函數關系,再對高斯過程預測輸出值進一步聯合優化,得到較為準確的目標預測輸出值,實現高質量語音轉換。
本發明采取的技術方案具體為:基于高斯過程輸出后濾波的語音轉換方法,包括以下步驟:
(1)采用語音分析模型對原始語音進行分析,得到原始語音的參數;
(2)從上述分析得到的參數中提取與音素相關的特征參數集合;
(3)對原始語音和目標語音的特征參數集合進行參數對齊操作;
(4)將對齊的特征參數集合利用高斯過程進行訓練得到原始語音與目標語音的映射關系;
(5)輸入待轉換源語音的特征參數,通過步驟(4)得到的映射關系得到目標語音的特征參數預測值;
(6)利用高斯過程對目標語音的特征參數預測值進行最大似然估計,并計算目標語音特征參數預測值的方差的高斯分布;
(7)對最大似然估計結果和方差的高斯分布結果進行聯合最優化,得到最佳目標語音特征參數預測值,最后用語音合成模型合成目標語音。
本發明中,步驟(1)~(4)為訓練階段,步驟(5)~(7)為轉換階段。高斯過程是一個隨機過程,可以完全由兩個統計參數確定,結構簡單,通過高斯過程得到源與目標參數的映射關系,進而可實現語音轉換。基于高斯過程的進行語音轉換,一方面,高斯過程的非參數特性減少了模型參數的自由度,另一方面高斯過程具有較好的非線性映射能力,從而可以緩解過擬合的問題,避免轉換后的譜參數過于平滑。
具體的,本發明步驟(1)中,采用語音分析模型對原始語音進行的分析包括:
1.1對原始語音進行固定時長的分幀,用自相關法對其基音頻率進行估計;
1.2在濁音信號部分設置一個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區域;再利用最小二乘算法估計得到離散的諧波幅度值和相位值。
語音分析模型為現有技術,其可將語音信號模擬為可用于轉換的特征參數,本發明可采用諧波隨機模型,該模型將語音信號模擬為大量基頻諧波正弦信號和噪聲分量,對基頻諧波正弦信號作進一步分析,得到適用于轉換的語音信號特征參數。
自相關法為現有算法,是語音信號基音頻率提取算法中較為經典且具有代表性的方法。
步驟(2)中,從步驟(1)中得到的參數包括原始語音的離散的諧波幅度值和相位值,從上述離散的諧波幅度值中提取與音素有關,即適用于語音轉換任務的特征參數集合,包括步驟:
2.1對離散的諧波幅度值求取平方值;
2.2根據功率譜密度函數和自相關函數的一一對應關系,得到關于線性預測系數的托普里茨矩陣方程,求解該矩陣方程得到線性預測系數;
2.3將線性預測系數轉換為目標倒譜系數,并求得原始語音的基音頻率;
2.4得到包含原始語音倒譜系數和基因頻率參數的特征參數集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學常州校區,未經河海大學常州校區許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611189592.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電視畫面和外設聲音同步控制方法和裝置
- 下一篇:音頻文件的評分方法及裝置





