[發明專利]訓練數據有限情形下的非平行文本語音轉換方法有效
| 申請號: | 201810418346.1 | 申請日: | 2018-05-03 |
| 公開(公告)號: | CN109671423B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 李燕萍;許吉良 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L25/18;G10L25/24 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 姚姣陽;徐振興 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 數據 有限 情形 平行 文本 語音 轉換 方法 | ||
本發明公開了一種目標說話人訓練數據有限情形下的多說話人對多說話人的非平行文本語音轉換系統。在目標說話人訓練數據有限情形下,通過對提取瓶頸特征的深度神經網絡的訓練過程進行干預與優化,從其他說話人特征空間自適應得到目標說話人的特征,解決了由于目標說話人不充分訓練而導致特征空間分布不足的問題,完成非平行文本條件下基于瓶頸特征和變分自編碼模型的多說話人對多說話人的語音轉換。本發明的優勢有三個方面:1)解除對平行文本的依賴,并且訓練過程不需要任何對齊操作;2)可以將多個源?目標說話人對的轉換系統整合在一個轉換模型中,即實現多對多轉換;3)當目標說話人的訓練數據有限時,可以完成非平行文本條件下的多對多轉換,一定程度上實現語音轉換技術從閉集走向開集,為實際的語音人機交互提供技術支撐。
技術領域:
本發明涉及信號處理、機器學習及語音信號處理領域,特別涉及一種在訓練數據有限情形下的非平行文本語音轉換系統實現方法。
背景技術:
語音轉換技術經過多年的研究,已經涌現了很多的經典轉換方法,其中包括高斯混合模型(Gaussian?Mixed?Model,GMM)、頻率彎折、深度神經網絡(DNN)以及基于單元選擇的方法等。但是這些語音轉換方法大多需要使用平行語料庫進行訓練,建立源語音和目標語音頻譜特征之間的轉換規則。
一種基于變分自編碼器(VAE)模型的語音轉換方法,直接利用說話人的身份標簽建立語音轉換系統,這種語音轉換系統在模型訓練時不需要對源說話人和目標說話人的語音幀進行對齊,可以解除對平行文本的依賴。但是基于VAE的語音轉換模型并不能解決目標語音訓練語料不充分問題,即在進行decoder過程中,并不能有效得到表征目標語音個性特征的類別標簽yn,無法完成轉換任務。在實際的語音人機交互中,常常無法獲得目標說話人的充分訓練語料,因此,有限語料下的轉換問題是面向應用中亟需解決的問題。
公開于該背景技術部分的信息僅僅旨在增加對本發明的總體背景的理解,而不應當被視為承認或以任何形式暗示該信息構成已為本領域一般技術人員所公知的現有技術。
發明內容:
本發明的目的在于提供一種訓練數據有限情形下的非平行文本語音轉換方法,從而克服上述現有技術中的缺陷。
為實現上述目的,本發明提供了一種訓練數據有限情形下的非平行文本語音轉換方法,其特征在于,該方法包括以下步驟:
1訓練部分:
1.1訓練語料通過AHOcoder分析/合成模型提取出不同說話人不同語句MFCC特征參數X和語音基頻log?f0;
1.2對1.1中每幀的語音特征X進行一次差分和二次差分,并與原特征拼接在一起得到特征Xt=(X,ΔX,Δ2X),然后將拼接后的特征與前后各一幀形成聯合特征參數xn=(Xt-1,Xt,Xt+1);
1.3將1.2中的聯合特征xn作為說話人識別任務的DNN網絡的訓練輸入數據,DNN模型的輸出為說話人Bottleneck特征bn。當說話人訓練數據不充分時,對DNN的訓練過程進行干預與優化,對mini-batch錯誤率進行監控,設定一定的閾值。為了補充目標說話人的特征空間,對于錯分到目標說話人一類的幀,通過改變標簽將其歸為目標說話人。然后繼續DNN訓練,待DNN模型訓練至收斂后,提取每一幀的Bottleneck特征bn作為VAE網絡訓練過程中decoder的監督信息,進行VAE模型訓練;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810418346.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種獲取純凈語音的錄音方法
- 下一篇:車輛特征的響應激活
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





