[發明專利]一種基于GAN的說話人語音特征訓練方法、裝置和設備在審
| 申請號: | 202010130403.3 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111341304A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 陳昊亮;許敏強 | 申請(專利權)人: | 廣州國音智能科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02;G10L21/0208 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 510000 廣東省廣州市黃埔區科學城掬泉*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 gan 說話 人語 特征 訓練 方法 裝置 設備 | ||
1.一種基于GAN的說話人語音特征訓練方法,其特征在于,包括:
通過錄音設備獲取說話人語音數據;
對所述說話人語音數據進行常規去噪處理,得到第一去噪語音數據;
對所述第一去噪語音數據進行特征提取,得到第一語音特征數據;
將所述第一語音特征數據輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值,所述理想掩膜值為所述第二語音特征數據與所述第一語音特征數據的比值;
根據所述理想掩膜值確定所述說話人語音的第二去噪語音數據;
將所述第二去噪語音數據輸入預置訓練網絡中進行語音特征訓練。
2.根據權利要求1所述的基于GAN的說話人語音特征訓練方法,其特征在于,所述對所述說話人語音數據進行常規去噪處理,得到第一去噪語音數據,包括:
對所述說話人語音數據進行基于深度循環神經網絡的語音去噪處理,得到第一去噪語音數據。
3.根據權利要求2所述的基于GAN的說話人語音特征訓練方法,其特征在于,所述對所述第一去噪語音數據進行特征提取,得到第一語音特征數據,包括:
對所述第一去噪語音數據進行MFCC特征提取,得到第一語音特征數據。
4.根據權利要求3所述的基于GAN的說話人語音特征訓練方法,其特征在于,所述對所述第一去噪語音數據進行特征提取,得到第一語音特征數據之后,所述將所述第一語音特征數據輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值之前,還包括:
計算所述第一語音特征數據的均方差歸一化處理值;
相應地,所述將所述第一語音特征數據輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值,包括:
將所述第一語音特征數據的均方差歸一化處理值輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值。
5.根據權利要求1所述的基于GAN的說話人語音特征訓練方法,其特征在于,所述將所述第一語音特征數據輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值,之前還把包括:
對初始GAN網絡進行訓練和測試,直到所述初始GAN網絡收斂,得到所述預置GAN網絡。
6.一種基于GAN的說話人語音特征訓練裝置,其特征在于,包括:
獲取單元,用于通過錄音設備獲取說話人語音數據;
第一去噪單元,用于對所述說話人語音數據進行常規去噪處理,得到第一去噪語音數據;
特征提取單元,用于對所述第一去噪語音數據進行特征提取,得到第一語音特征數據;
掩膜單元,用于將所述第一語音特征數據輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值,所述理想掩膜值為所述第二語音特征數據與所述第一語音特征數據的比值;
第二去噪單元,用于根據所述理想掩膜值確定所述說話人語音的第二去噪語音數據;
第一訓練單元,用于將所述第二去噪語音數據輸入預置訓練網絡中進行語音特征訓練。
7.根據權利要求6所述的基于GAN的說話人語音特征訓練裝置,其特征在于,所述第一去噪單元具體用于:
對所述說話人語音數據進行基于深度循環神經網絡的語音去噪處理,得到第一去噪語音數據。
8.根據權利要求7所述的基于GAN的說話人語音特征訓練裝置,其特征在于,所述特征提取單元具體用于:
對所述第一去噪語音數據進行MFCC特征提取,得到第一語音特征數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州國音智能科技有限公司,未經廣州國音智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010130403.3/1.html,轉載請聲明來源鉆瓜專利網。





