[發明專利]語音數據增強方法和裝置有效
| 申請號: | 202010721984.8 | 申請日: | 2020-07-24 |
| 公開(公告)號: | CN111863003B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 錢彥旻;龔勛;陳正陽;楊葉新;王帥 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L17/00;G10L17/02;G10L17/04 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 數據 增強 方法 裝置 | ||
本發明公開語音數據增強方法和裝置,其中,一種語音數據增強方法,包括:語音數據增強方法,包括:將原始干凈音頻和帶噪音頻輸入至嵌入提取器中,其中,所述帶噪音頻包括所述原始干凈音頻和噪聲;獲取所述嵌入提取器輸出的干凈嵌入和噪聲嵌入;計算所述干凈嵌入和所述噪聲嵌入之間的差值;對所述差值進行分布估計得到噪聲分布擬合后的噪聲嵌入。本申請實施例通過僅使用少量訓練數據就可以可靠地估計所提議的NDM,與傳統的增強方法相比,NDM方法可以節省時間和磁盤成本。NDM訓練結果能夠達到和傳統增強方法相媲美的效果,甚至有時候可以超越傳統方法。
技術領域
本發明屬于語音數據增強領域,尤其涉及語音數據增強方法和裝置。
背景技術
相關技術中,實驗室已經有在GAN和VAE技術基礎上進行的數據增強技術。
數據增強(DA)是幫助構建具有良好泛化能力的說話人識別系統的一種有效策略。在基于說話人特征的說話者驗證中,數據增強可以應用于前端特征提取器或后端PLDA打分。傳統后端數據增強在于通過已有的特征數據,通過GAN、VAE等生成模型生成相關數據,用以增強 PLDA的魯棒性。
發明人在實現本申請的過程中發現,現有方案至少存在以下缺陷:訓練較為復雜,參數較多,實際應用時需要的資源較多。
發明內容
本發明實施例提供一種語音數據增強方法及裝置,用于至少解決上述技術問題之一。
第一方面,本發明實施例提供一種語音數據增強方法,包括:將原始干凈音頻和帶噪音頻輸入至嵌入提取器中,其中,所述帶噪音頻包括所述原始干凈音頻和噪聲;獲取所述嵌入提取器輸出的干凈嵌入和噪聲嵌入;計算所述干凈嵌入和所述噪聲嵌入之間的差值;以及對所述差值進行分布估計得到噪聲分布擬合后的噪聲嵌入。
第二方面,本發明實施例提供一種語音數據增強裝置,包括:嵌入提取模塊,配置為將原始干凈音頻和帶噪音頻輸入至嵌入提取器中,其中,所述帶噪音頻包括所述原始干凈音頻和噪聲;獲取模塊,配置為獲取所述嵌入提取器輸出的干凈嵌入和噪聲嵌入;計算模塊,配置為計算所述干凈嵌入和所述噪聲嵌入之間的差值;以及分布擬合模塊,配置為對所述差值進行分布估計得到噪聲分布擬合后的噪聲嵌入。
第三方面,提供一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本發明任一實施例的語音數據增強方法的步驟。
第四方面,本發明實施例還提供一種計算機程序產品,所述計算機程序產品包括存儲在非易失性計算機可讀存儲介質上的計算機程序,所述計算機程序包括程序指令,當所述程序指令被計算機執行時,使所述計算機執行本發明任一實施例的語音數據增強方法的步驟。
本申請的方法和裝置提供的方案通過僅使用少量訓練數據就可以可靠地估計所提議的NDM(基于噪聲分布匹配,Noise Distribution Matching),與傳統的增強方法相比,NDM方法可以節省時間和磁盤成本。NDM訓練結果能夠達到和傳統增強方法相媲美的效果,甚至有時候可以超越傳統方法
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明一實施例提供的一種語音數據增強方法的流程圖;
圖2為本發明一實施例提供的基于NDM的嵌入增強流程圖;
圖3為本發明一實施例提供的NDM估計中使用的不同訓練數據大小的性能比較;
圖4為5個說話人的手動模式(暗點)和NDM(亮點)生成的“嘈雜”嵌入的T-SNE可視化;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010721984.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





