[發明專利]音頻識別方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202110436379.0 | 申請日: | 2021-04-22 |
| 公開(公告)號: | CN113205800A | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 趙晴 | 申請(專利權)人: | 京東數字科技控股股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/04;G10L19/16;G10L25/51 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 唐會娜;趙妍妍 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種音頻識別方法、裝置、計算機設備和存儲介質。所述方法包括:接收音頻流信息,所述音頻流信息中包括:音頻流采樣率;根據所述音頻流采樣率獲取聲學模型的輸入控制參數,以及解碼器的解碼參數;接收音頻流片段;根據所述輸入控制參數,將所述音頻流片段輸入聲學模型,獲取得分列表;根據所述解碼參數,將所述得分列表輸入解碼器中,獲取所述音頻流片段的識別結果。本申請實施例中,根據接收到的音頻流采樣率,獲取聲學模型的輸入控制參數以及解碼器的解碼參數,根據聲學模型和解碼器獲得識別結果,無需根據采樣率配備多套系統,可以減少成本。
技術領域
本申請涉及數據處理領域,尤其涉及一種音頻識別方法、裝置、計算機設備和存儲介質。
背景技術
隨著技術的不斷進步,語音交互技術的應用越發的廣泛,例如智能外呼機器人、智能客服質檢等。
在語音交互過程中,為提高用戶體驗,需要及時對用戶語音輸入進行處理,以降低響應延時。比如在智能外呼場景下,就需要產品能夠準確、快速地通過語音識別服務器將該語音識別成文字信息,然后再根據自然語言處理得到用戶意圖后,作出相應的回復,從而完成一輪對話。
然而,目前對不同的應用場景,往往會有不同的語音流的需求,如外呼電話類產生的是8k音頻流,會議類產生的是16k的音頻流,不同的應用場景、應用設備,往往會有不同的音頻流產生。為了支持不同的業務,語音服務需要維護多套相似的系統,會產生大量的資源消耗和人力維護成本。
發明內容
為了解決上述技術問題或者至少部分地解決上述技術問題,本申請提供了一種音頻識別方法、裝置、計算機設備和存儲介質。
第一方面,本申請提供了一種音頻識別方法,所述方法包括:
接收音頻流信息,所述音頻流信息中包括:音頻流采樣率;
根據所述音頻流采樣率獲取聲學模型的輸入控制參數,以及解碼器的解碼參數;
接收音頻流片段;
根據所述輸入控制參數,將所述音頻流片段輸入聲學模型,獲取得分列表;
根據所述解碼參數,將所述得分列表輸入解碼器中,獲取所述音頻流片段的識別結果。
本申請實施例中,所述輸入控制參數包括:預設閾值和預設數據量;
所述根據輸入控制參數,將音頻流片段輸入所述聲學模型,獲取得分列表,包括:
獲取存儲器中的所有音頻流片段;
判斷所述所有音頻流片段的總數據量是否大于預設閾值;
如果所有音頻流片段的總數據量大于預設閾值,則按照時間戳的順序從后至前,依次獲取多個音頻流片段,將多個音頻流片段的總和作為所述待識別音頻流,使所述待識別音頻流的總數據量等于預設數據量,其中,所述最后一個時間戳對應的音頻流片段為當前音頻流片段;
根據所述聲學模型,獲取所述待識別音頻流對應的第一得分列表;
從所述第一得分列表中,篩選出當前音頻流片段對應的第二得分列表。
本申請實施例中,所述根據解碼參數,將得分列表輸入解碼器中,獲取識別結果,包括:
將所述第二得分列表和上一時間戳對應的解碼參數輸入所述解碼器,得到當前音頻流片段的識別結果;
所述得到當前音頻流片段的識別結果之后,所述方法還包括:
生成并存儲當前時間戳對應的解碼參數。
本申請實施例中,所述接收音頻流信息之前,所述方法還包括:
接收長連接申請;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股股份有限公司,未經京東數字科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110436379.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于相變原理的憶阻器及其制備方法
- 下一篇:功率放大器電路以及電子設備





