[發明專利]訓練語音增廣模型的方法和裝置有效
| 申請號: | 202110607065.2 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113314107B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 錢彥旻;王巍;張王優;李晨達 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L21/0216 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 語音 增廣 模型 方法 裝置 | ||
本發明公開訓練語音增廣模型的方法和裝置,其中,一種訓練語音增廣模型的方法,包括:使用同時具有文本信息和噪聲增廣的模擬語音數據訓練教師模型;利用訓練后的所述教師模型對真實語音數據進行標注;以及使用所述模擬語音數據和所述教師模型標注的真實語音數據共同訓練學生模型以使所述學生模型能夠在真實語音數據和模擬語音數據這兩種信號上不需要文本信息即能夠進行語音增廣。本申請實施例提供的上述方法不僅提高了對模擬數據的語音增強性能,而且降低了下游語音識別任務的單詞錯誤率。
技術領域
本發明屬于模型訓練技術領域,尤其涉及訓練語音增廣模型的方法和裝置。
背景技術
相關技術中,許多與語音相關的應用程序,例如自動語音識別(automatic speechrecognition,ASR)和說話人驗證,都需要語音增強(speech enhancement,SE)作為必不可少的前端,以提高降級語音信號的清晰度和感知質量。盡管已經做出了許多努力來構建最新的語音增強模型,但是在處理真實數據時,單通道語音增強仍然具有挑戰性。
語音增強的挑戰之一是訓練條件和評估條件之間的差異。與諸如語音識別和說話人識別之類的下游任務不同,后者可以很容易地為真實世界的數據標注地面真相標簽,而在收集真實世界的數據時,通常無法使用語音增強中的并行純凈語音信號。因此,大多數語音增強系統必須建立在模擬語音數據上。然而,仿真過程通常只覆蓋有限的噪聲條件和類型,這可能導致在看不見的噪聲條件下性能下降。
為了減輕培訓訓練和評估之間的不匹配,已經進行了許多嘗試,它們可以分為五個主要類別。(1)數據擴充:已經探索了各種數據增強策略,例如收集用于訓練的大規模真實噪聲,噪聲擾動以及基于一組精心設計的噪聲基礎生成噪聲。(2)噪聲建模:已經探索了噪聲建模的各個方向,以在模型設計或訓練過程中明確地利用噪聲信息。例如,現有技術中提出將預測的噪聲信息合并到語音估計中。現有技術中提出通過領域對抗訓練(domainadversarial training,DAT)來訓練一個抗噪語音增強模型。現有技術中研究了通過添加噪聲相關的損失來改善多任務損失下的語音增強。(3)基于生成對抗網絡(Generativeadversarial networks,GANs)的方法:先前的工作已經研究了將GAN用于使用真實數據進行語音增強的情況。語音增強模型(作為生成器)將語音信號與嘈雜的輸入分離開來,而鑒別器則試圖將增強的信號與真實的純凈語音信號區分開。(4)對下游任務的端到端培訓訓練。許多先前的研究已經以端到端的方式研究了培訓訓練SE模型以及不同的下游任務。由于僅將下游任務中的最終損失用于訓練整個系統,因此避免了對干凈語音引用的依賴。(5)輔助信息。不僅僅是將音頻信息用于語音增強,一些研究還集中在使用來自其他模態的輔助信息來改善語音增強。在語音增強中已經探索了不同的方式,包括說話人身份,文本信息和視覺線索。
其中,對抗神經網絡包括一個生成器和一個鑒別器,生成器負責語音增強,鑒別器負責鑒別生成器產生的語音是帶躁語音或干凈語音,通過共同訓練提高二者的能力,達到語音增強的目的。
噪聲增廣數據的方法通過將有限的噪聲音頻按不同信噪比,不同方式混入干凈語音,模擬真實場景下的帶躁語音訓練增強模型。
發明人在實現本申請的過程中發現現有技術的方案存在以下缺陷:基于對抗神經網絡的模型訓練過程復雜,通常難以訓練,需要精細調參。通過噪聲增廣數據的方法無法在真實數據上訓練。具體地,對抗神經網絡的缺陷來源于其模型設計,對抗訓練的過程需要生成器和鑒別器的能力相對平衡。噪聲增廣數據的方法沒有考慮利用真實數據訓練增強模型,只希望通過噪聲模擬真實場景。
發明內容
本發明實施例提供一種訓練語音增廣模型的方法和裝置,用于至少解決上述技術問題之一。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110607065.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:藍光3D打印機以及系統
- 下一篇:一種用于方鋼卸載與堆積的專用吊裝設備





