[發明專利]基于高斯過程輸出后濾波的語音轉換方法在審
| 申請號: | 201611189592.1 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN106782599A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 徐寧;鮑靜益;姚瀟;湯一彬;蔣愛民;劉小峰 | 申請(專利權)人: | 河海大學常州校區 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/27 |
| 代理公司: | 南京縱橫知識產權代理有限公司32224 | 代理人: | 董建林 |
| 地址: | 213022 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 過程 輸出 濾波 語音 轉換 方法 | ||
1.一種基于高斯過程輸出后濾波的語音轉換方法,其特征是,包括以下步驟:
(1)采用語音分析模型對原始語音進行分析,得到原始語音的參數;
(2)從分析得到的參數中提取與音素相關的特征參數集合;
(3)對原始語音和目標語音的特征參數集合進行參數對齊操作;
(4)將對齊的特征參數集合利用高斯過程進行訓練得到原始語音與目標語音的映射關系;
(5)輸入待轉換源語音的特征參數,通過步驟(4)得到的映射關系得到目標語音的特征參數預測值;
(6)利用高斯過程對目標語音的特征參數預測值進行最大似然估計,并計算目標語音特征參數預測值的方差的高斯分布;
(7)對最大似然估計結果和方差的高斯分布結果進行聯合最優化,得到最佳目標語音特征參數預測值,最后用語音合成模型合成目標語音。
2.根據權利要求1所述的基于高斯過程輸出后濾波的語音轉換方法,其特征是,步驟(1)中,采用語音分析模型對原始語音進行的分析包括:
1.1對原始語音進行固定時長的分幀,用自相關法對其基音頻率進行估計;
1.2在濁音信號部分設置一個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區域;再利用最小二乘算法估計得到離散的諧波幅度值和相位值。
3.根據權利要求1所述的基于高斯過程輸出后濾波的語音轉換方法,其特征是,
步驟(2)中,從步驟(1)中得到的參數包括離散的諧波幅度值和相位值,從上述離散的諧波幅度值中提取與音素有關,即適用于語音轉換任務的特征參數集合包括:
2.1對離散的諧波幅度值求取平方值;
2.2根據功率譜密度函數和自相關函數的一一對應關系,得到關于線性預測系數的托普里茨矩陣方程,求解該方程;
2.3將線性預測系數轉換為目標倒譜系數,并求得原始語音的基音頻率;
2.4得到包含倒譜系數和基因頻率參數的特征參數矩陣。
4.根據權利要求1所述的基于高斯過程輸出后濾波的語音轉換方法,其特征是,步驟(3)中,對原始語音和目標語音的特征參數集合進行參數對齊操作的對其準則為:對于兩個不等長的特征參數序列,利用動態規劃的思想將其中一者的時間軸非線性的映射到另一者的時間軸上,從而實現一一對應的匹配關系;在現參數集合的對齊過程中,通過迭代優化一個預設的累積失真函數,并限制搜索區域,最終獲得時間匹配函數。
5.根據權利要求1所述的基于高斯過程輸出后濾波的語音轉換方法,其特征是,步驟(4)中所述得到原始語音與目標語音特征參數映射關系的方法包括以下步驟:
4.4從步驟(2)得到的特征參數矩陣中提取原語音信號特征參數矩陣中的所有參數將其作為輸入,目標語音參數矩陣中的其中一維數值作為輸出,通過高斯過程訓練兩者之間的映射關系;
4.2依次選擇目標參數矩陣中的其他各維數值作為輸出,得到原始語音參數矩陣中參數與目標語音參數矩陣中各維數值之間的映射關系。
6.根據權利要求1所述的基于高斯過程輸出后濾波的語音轉換方法,其特征是,步驟(5)中,對于待轉換源語音,處理過程包括步驟:
5.1對待轉換源語音依次按步驟(1)、(2)、(3)進行分析處理,得到待轉換源語音的特征參數;
5.2利用步驟(4)得到的映射關系,將步驟5.1得到的待轉換源語音的特征參數,映射為目標語音的特征參數,即得到目標語音的特征參數預測值,進一步得到相應的特征參數矩陣。
7.根據權利要求6所述的基于高斯過程輸出后濾波的語音轉換方法,其特征是,步驟(6)包括如下步驟:
6.1利用高斯過程對步驟5.2所得目標語音特征參數矩陣中的各維特征參數進行最大似然估計;
6.2計算步驟6.1所得的目標語音各維特征參數的方差,并求取其方差的高斯分布。
8.根據權利要求7所述的基于高斯過程輸出后濾波的語音轉換方法,其特征是,步驟(7)包括如下步驟:
7.1構建步驟6.1所得最大似然估計值和步驟6.2所得方差的高斯分布的聯合函數,并對該聯合函數進行最優化,實現對高斯過程預測輸出的后濾波,得到最佳目標預測值,重構目標語音的特征參數矩陣;
7.2基于上述重構的特征參數矩陣和目標語音的基音頻率,利用語音合成模型轉換為目標語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學常州校區,未經河海大學常州校區許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611189592.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電視畫面和外設聲音同步控制方法和裝置
- 下一篇:音頻文件的評分方法及裝置





