[發(fā)明專利]一種音頻數據處理的方法及裝置在審
| 申請?zhí)枺?/td> | 201811558661.0 | 申請日: | 2018-12-19 |
| 公開(公告)號: | CN111414669A | 公開(公告)日: | 2020-07-14 |
| 發(fā)明(設計)人: | 黃智超;吳本谷 | 申請(專利權)人: | 北京獵戶星空科技有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G10L15/22 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 王治東 |
| 地址: | 100144 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 數據處理 方法 裝置 | ||
本申請?zhí)峁┮环N音頻數據處理的方法及裝置,其中所述方法包括:確定鏡像算法所需的仿真參數;根據所述鏡像算法和所述仿真參數,生成房間沖激響應;根據已獲取的近場音頻數據和所述房間沖激響應,生成遠場音頻數據,從而與現有技術相比,仿真過程中得到豐富的卷積核,并且音頻數據的范圍可變,能覆蓋大部分房間和情況,從而獲得較好的遠場音頻效果。
技術領域
本申請涉及語音識別技術領域,特別涉及一種音頻數據處理的方法及裝置。
背景技術
隨著智能設備的普及,語音識別的應用場合也越來越多。現有技術中,語音識別一般是收集近場數據,然后對近場數據進行標注,然后訓練得到聲學模型。然后在收到語音后,通過訓練得到的聲學模型對語音進行識別,獲取到清晰的語音信息。
但是在實際的應用場景下,人離麥克風較遠都大于50cm,甚至3m,由于傳輸距離較長,而且語音中會包含更多的干擾,導致語音識別的準確率大幅下降,不能得到較佳的語音處理結果。
發(fā)明內容
有鑒于此,本申請實施例提供了一種音頻數據處理的方法及裝置,以解決現有技術中存在的技術缺陷。
本申請實施例公開了一種音頻數據處理的方法,包括:
確定鏡像算法所需的仿真參數;
根據所述鏡像算法和所述仿真參數,生成房間沖激響應;
根據已獲取的近場音頻數據和所述房間沖激響應,生成遠場音頻數據。
可選地,所述仿真參數包括:房間仿真參數、麥克風的仿真位置參數和播放源的仿真位置參數中的至少一種;
其中,所述仿真房間的參數包括:仿真房間內的各個墻壁的吸聲系數和反射次數中的至少一種。
可選地,根據所述鏡像算法和所述仿真參數,生成房間沖激響應,包括:
根據麥克風的仿真位置參數和播放源的仿真位置參數,得到麥克風與播放源的仿真距離參數;
根據所述仿真房間內的各個墻壁的吸聲系數、反射次數以及所述麥克風與所述播放源的仿真距離參數,采用所述鏡像算法計算得到所述麥克風的房間沖激響應。
可選地,所述仿真房間內的各個墻壁的反射次數通過以下方法獲取:
獲取所述播放源的鏡像點相對于所述播放源的仿真位置;
獲取所述仿真房間內的各個墻壁的反射階數;
根據所述播放源的鏡像點相對于所述播放源的仿真位置以及所述仿真房間內的各個墻壁的反射階數,得到所述仿真房間內的各個墻壁的反射次數。
可選地,根據已獲取的近場音頻數據和所述房間沖激響應,生成遠場音頻數據,包括:
獲取噪聲數據;
根據已獲取的近場音頻數據、所述房間沖激響應以及所述噪聲數據,生成遠場音頻數據。
可選地,根據已獲取的近場音頻數據、所述房間沖激響應以及所述噪聲數據,生成遠場音頻數據,包括:
將所述房間沖激響應和所述近場音頻數據進行卷積;
將所述卷積的結果和所述噪聲數據求和,得到所述遠場音頻數據。
可選地,所述噪聲數據通過錄制或仿真的方式獲得。
可選地,本申請的音頻數據處理的方法還包括:
獲取所述近場音頻數據的標簽;
將所述遠場音頻數據作為訓練樣本,將所述近場音頻數據的標簽作為訓練標簽,訓練遠場聲學模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京獵戶星空科技有限公司,未經北京獵戶星空科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811558661.0/2.html,轉載請聲明來源鉆瓜專利網。





