[發明專利]一種語音數據處理方法及裝置有效

申請號：	201810093648.6	申請日：	2018-01-31
公開（公告）號：	CN110097871B	公開（公告）日：	2023-05-12
發明（設計）人：	薛少飛;田彪	申請（專利權）人：	阿里巴巴集團控股有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/26
代理公司：	北京三友知識產權代理有限公司 11127	代理人：	李輝
地址：	英屬開曼***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音數據處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施方式公開了一種語音數據處理方法及裝置。所述方法包括：獲取麥克風錄制的語音數據；獲取所述麥克風所處的麥克風箱體的特征信息；將所述麥克風箱體的所述特征信息混響至所述語音數據中。利用本申請的技術方案，一方面，可以降低獲取遠場語音數據的成本，另一方面，利用魯棒性較高的遠場語音數據進行遠場語音模型訓練，可以獲取具有較高準確性的遠場語音模型，該遠場語音模型對于后續的遠場語音識別具有重要的意義。

技術領域

本申請涉及語音識別技術領域，特別涉及一種語音數據處理方法處理方法及裝置。

背景技術

近年來，語音識別技術取得顯著進步，已經逐漸從實驗室走向市場。典型地，語音識別技術已經在工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等多個領域中廣泛應用。語音識別技術所涉及的技術領域比較復雜，其中包括信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。

遠場語音識別技術是語音識別領域中的重要技術，目的在于能夠在遠距離條件下(通常是1m-5m)讓機器識別人的語音。遠場語音識別技術在智能家居(如智能音箱、智能電視等)、會議轉錄等場景都有重要的應用。由于真實環境中存在大量的噪聲、多徑反射和混響等干擾，導致拾取的語音信號質量較低。因此，通常情況下遠場語音識別的準確率與近場語音識別相比會有大幅下降。基于此，在遠場語音識別中，可以利用大量的遠場語音數據進行模型訓練以提高語音識別的準確率。在對遠場語音識別進行模型訓練的過程中，通常采用麥克風陣列的方式收集語音數據。但是，受設備、場地等因素的影響，錄制遠場語音數據比錄制近場語音數據成本更高，大量的真實遠場語音數據通常不易獲得。因此，現有技術中，在對遠場語音識別進行模型訓練的過程中，可以利用近場語音數據模擬產生遠場語音數據。利用近場語音數據模擬產生遠場語音數據的目的在于使得模擬產生的遠場語音數據與真實遠場語音數據相接近，從而更好地進行模型訓練。

但是，現有技術中訓練得到的遠場語音模型往往與真實的遠場語音場景有較大的偏差。因此，現有技術中亟需一種能夠模擬真實遠場語音場景的語音數據處理技術。

發明內容

本申請實施方式的目的是提供一種語音數據處理方法及裝置。一方面，可以降低獲取遠場語音數據的成本，另一方面，利用魯棒性較高的遠場語音數據進行遠場語音模型訓練，可以獲取具有較高準確性的遠場語音模型，該遠場語音模型對于后續的遠場語音識別具有重要的意義。

具體地，所述語音數據處理方法及裝置是這樣實現的：

一種語音數據處理方法，所述方法包括：

獲取麥克風錄制的語音數據；

確定所述麥克風所處的麥克風箱體的特征信息；

將所述麥克風箱體的所述特征信息混響至所述語音數據中。

一種語音數據處理方法，所述方法包括：

獲取由多個麥克風組成的麥克風陣列錄制的語音數據；

分別獲取所述麥克風所處的麥克風箱體的特征信息；

將所述麥克風箱體的所述特征信息混響至所述語音數據中。