[發明專利]一種基于GAN的說話人語音特征訓練方法、裝置和設備在審
| 申請號: | 202010130403.3 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111341304A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 陳昊亮;許敏強 | 申請(專利權)人: | 廣州國音智能科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02;G10L21/0208 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 510000 廣東省廣州市黃埔區科學城掬泉*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 gan 說話 人語 特征 訓練 方法 裝置 設備 | ||
本申請公開了一種基于GAN的說話人語音特征訓練方法、裝置和設備,在對說話人語音數據進行常規去噪處理之后,對得到的第一去噪語音數據濟寧特征提取,再將得到的第一語音特征數據輸入到預置GAN網絡的生成器中,利用掩膜值對語音第一去噪語音數據進行二次去噪,得到第二去噪語音數據,利用第二去噪語音數據進行語音特征訓練和識別,有效提高了說話人語音識別的準確率,解決了現有的語音識別方式識別準確率不高的技術問題。
技術領域
本申請涉及語音處理技術領域,尤其涉及一種基于GAN的說話人語音特征訓練方法、裝置和設備。
背景技術
語音識別是同一說話人鑒定的重要手段,現有的說話人聲紋鑒定是獲取說話人語音數據,對說話人語音數據進行去噪處理之后,進行語音特征提取,然后通過預設語音識別模型進行語音識別,但是現有的語音識別方式識別準確率不高,因此,進一步提高說話人語音識別的準確率仍是本領域技術人員亟待解決的技術問題。
發明內容
本申請提供了一種基于GAN的說話人語音特征訓練方法、裝置和設備,用于解決現有的語音識別方式識別準確率不高的技術問題。
有鑒于此,本申請第一方面提供了一種基于GAN的說話人語音特征訓練方法,包括:
通過錄音設備獲取說話人語音數據;
對所述說話人語音數據進行常規去噪處理,得到第一去噪語音數據;
對所述第一去噪語音數據進行特征提取,得到第一語音特征數據;
將所述第一語音特征數據輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值,所述理想掩膜值為所述第二語音特征數據與所述第一語音特征數據的比值;
根據所述理想掩膜值確定所述說話人語音的第二去噪語音數據;
將所述第二去噪語音數據輸入預置訓練網絡中進行語音特征訓練。
可選地,所述對所述說話人語音數據進行常規去噪處理,得到第一去噪語音數據,包括:
對所述說話人語音數據進行基于深度循環神經網絡的語音去噪處理,得到第一去噪語音數據。
可選地,所述對所述第一去噪語音數據進行特征提取,得到第一語音特征數據,包括:
對所述第一去噪語音數據進行MFCC特征提取,得到第一語音特征數據。
可選地,所述對所述第一去噪語音數據進行特征提取,得到第一語音特征數據之后,所述將所述第一語音特征數據輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值之前,還包括:
計算所述第一語音特征數據的均方差歸一化處理值;
相應地,所述將所述第一語音特征數據輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值,包括:
將所述第一語音特征數據的均方差歸一化處理值輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值。
可選地,所述將所述第一語音特征數據輸入到預置GAN網絡的生成器中,輸出所述第一語音特征數據對應的第二語音特征數據的理想掩膜值,之前還把包括:
對初始GAN網絡進行訓練和測試,直到所述初始GAN網絡收斂,得到所述預置GAN網絡。
本申請第二方面提供了一種基于GAN的說話人語音特征訓練裝置,包括:
獲取單元,用于通過錄音設備獲取說話人語音數據;
第一去噪單元,用于對所述說話人語音數據進行常規去噪處理,得到第一去噪語音數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州國音智能科技有限公司,未經廣州國音智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010130403.3/2.html,轉載請聲明來源鉆瓜專利網。





