[發明專利]基于BLSTM的分頻拓譜抗噪語音轉換方法有效
| 申請號: | 202011288173.X | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112562704B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 孫蒙;苗曉孔;張雄偉;曹鐵勇;鄭昌艷;李莉 | 申請(專利權)人: | 中國人民解放軍陸軍工程大學 |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L25/30;G10L25/24 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 岑丹 |
| 地址: | 210007 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 blstm 分頻 拓譜抗噪 語音 轉換 方法 | ||
本發明公開了一種基于BLSTM的分頻拓譜抗噪語音轉換方法,具體步驟為:對源語音和目標語音進行濾波,并提取語音特征參數,所述語音特征參數包括基頻、聲道譜、非周期成分;將提取到的源語音和目標語音的聲道譜進行動態時間規整對齊;將對齊后的源語音和目標語音聲道譜分別輸入分頻轉換的BLSTM網絡模型進行訓練,得到對應的特征轉換網絡;構建全局統計方差一致性濾波模型;將待轉換語音濾波后,提取待轉換語音的特征參數,并進行預處理;將預處理后的待轉換語音的特征參數進行參數化的語音合成,生成最終的轉換語音。本發明設計全新的融合規則,將分頻轉換后的部分進行融合,進而得到更加接近目標的聲道譜,從而提升語音轉換的相似度。
技術領域
本發明屬于語音信號處理技術,具體為一種基于BLSTM的分頻拓譜抗噪語音轉換方法。
背景技術
語音轉換是指改變一個說話人(源說話人,source?speaker)的語音個性特征,使之具有另外一個說話人(目標說話人,target?speaker)的語音個性特征,它是一種語音到語音的技術。語音轉換可以分為兩類:一類是非特定人語音轉換,只需將源說話人的聲音變掉即可,用于讓對方聽不出自己身份的場景;另一類為特定人語音轉換,是將源說話人的聲音轉換為特定的目標人物的聲音,用于冒充目標人物的身份的場景。特定人語音轉換符合個性化語音生成的技術需求,是當前研究的主要熱點之一。
特定說話人的語音轉換還可以分為:平行語料的語音轉換和非平行語料轉換,目前,轉換質量和相似度較高的系統一般都是基于平行語料的轉換方法,該技術目前的研究現狀簡要總結如下:
語音轉換最早可追溯到上個世紀五六十年代,從最經典的高斯混合模型(Gaussian?Mixture?Model,GMM)不斷改進,到現在能夠有效表示高維序列數據的深度神經網等模型,如:全卷積神經網絡(Fully?Convolutional?Network,FCN)、生成對抗網絡(Kaneko?T.,Kameoka?H,Hiramatsu?K,Kashino?K,Sequence-to-Sequence?VoiceConversion?with?Similarity?Metric?Learned?Using?Generative?AdversarialNetworks,Interspeech?2017;Kaneko?T,Kameoka?H,Hojo?N,Kashino?K,Generativeadversarial?network-based?post-filter?for?statistical?parameter?synthesis,ICASSP?2017)、雙向長短時記憶網絡(Huang?Z,Xu?W?and?Yu.K.Bidirectional?LSTM-CRFmodels?for?sequence?tagging.Available:https://arxiv.org/abs/1508.01991,2015)等。近些年隨著國際賽事——語音轉換挑戰賽(Voice?Conversion?Challenge,VCC)的連續舉辦,語音轉換方法不斷改進,轉換語音的質量和相似度也進一步得到提升。雖然這些語音轉換方案合理有效,也取得了較好的轉換效果,但由于大多數語音轉換方法是在實驗條件下進行,其對訓練數據的大小和質量具有嚴重的依賴性,訓練樣本數據量越大,訓練語料越純凈其獲得的轉換語音效果越好,而針對小樣本數據以及含噪語音數據,則模型的轉換效果受到限制,轉換語音的質量也大幅下降。
發明內容
本發明的目的在于提出了一種基于BLSTM的分頻拓譜抗噪語音轉換方法。
實現本發明目的的技術解決方案為:一種基于BLSTM的分頻拓譜抗噪語音轉換方法,具體步驟為:
步驟1:對源語音和目標語音進行濾波,并提取語音特征參數,所述語音特征參數包括基頻、聲道譜、非周期成分;將提取到的源語音和目標語音的聲道譜進行動態時間規整對齊;
步驟2:將對齊后的源語音和目標語音聲道譜分別輸入分頻轉換的BLSTM網絡模型進行訓練,得到對應的特征轉換網絡;
步驟3、構建全局統計方差一致性濾波模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍陸軍工程大學,未經中國人民解放軍陸軍工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011288173.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:測試數據構造方法及裝置
- 下一篇:一種三維人臉重建方法及系統





