[發明專利]音頻識別方法、裝置、計算機設備和存儲介質在審

申請號：	202110436379.0	申請日：	2021-04-22
公開（公告）號：	CN113205800A	公開（公告）日：	2021-08-03
發明（設計）人：	趙晴	申請（專利權）人：	京東數字科技控股股份有限公司
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/04;G10L19/16;G10L25/51
代理公司：	北京華夏泰和知識產權代理有限公司 11662	代理人：	唐會娜;趙妍妍
地址：	100176 北京市大興區北京經***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	音頻識別方法裝置計算機設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及一種音頻識別方法、裝置、計算機設備和存儲介質。所述方法包括：接收音頻流信息，所述音頻流信息中包括：音頻流采樣率；根據所述音頻流采樣率獲取聲學模型的輸入控制參數，以及解碼器的解碼參數；接收音頻流片段；根據所述輸入控制參數，將所述音頻流片段輸入聲學模型，獲取得分列表；根據所述解碼參數，將所述得分列表輸入解碼器中，獲取所述音頻流片段的識別結果。本申請實施例中，根據接收到的音頻流采樣率，獲取聲學模型的輸入控制參數以及解碼器的解碼參數，根據聲學模型和解碼器獲得識別結果，無需根據采樣率配備多套系統，可以減少成本。

技術領域

本申請涉及數據處理領域，尤其涉及一種音頻識別方法、裝置、計算機設備和存儲介質。

背景技術

隨著技術的不斷進步，語音交互技術的應用越發的廣泛，例如智能外呼機器人、智能客服質檢等。

在語音交互過程中，為提高用戶體驗，需要及時對用戶語音輸入進行處理，以降低響應延時。比如在智能外呼場景下，就需要產品能夠準確、快速地通過語音識別服務器將該語音識別成文字信息，然后再根據自然語言處理得到用戶意圖后，作出相應的回復，從而完成一輪對話。

然而，目前對不同的應用場景，往往會有不同的語音流的需求，如外呼電話類產生的是8k音頻流，會議類產生的是16k的音頻流，不同的應用場景、應用設備，往往會有不同的音頻流產生。為了支持不同的業務，語音服務需要維護多套相似的系統，會產生大量的資源消耗和人力維護成本。

發明內容

為了解決上述技術問題或者至少部分地解決上述技術問題，本申請提供了一種音頻識別方法、裝置、計算機設備和存儲介質。

第一方面，本申請提供了一種音頻識別方法，所述方法包括：

接收音頻流信息，所述音頻流信息中包括：音頻流采樣率；

根據所述音頻流采樣率獲取聲學模型的輸入控制參數，以及解碼器的解碼參數；

接收音頻流片段；