[發明專利]一種融合式語音識別方法、裝置、系統、設備和存儲介質在審

申請號：	202010767361.4	申請日：	2020-08-03
公開（公告）號：	CN111883130A	公開（公告）日：	2020-11-03
發明（設計）人：	陳曉松;李旭濱	申請（專利權）人：	上海茂聲智能科技有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/25;G10L15/26;G10L15/20;G10L15/30
代理公司：	上海領譽知識產權代理有限公司 31383	代理人：	車超平;王琰
地址：	201306 上海***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種融合語音識別方法裝置系統設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及一種融合式語音識別方法、裝置、系統、設備及存儲介質，該方法包括通過獲取第一語音數據流；獲取圖像數據，在圖像數據包括用戶的人臉圖像數據以及用戶的唇動圖像數據的情況下，生成第一降噪增強指令；根據第一降噪增強指令，對第一語音數據流進行處理以獲得第二語音數據流；識別第二語音數據流，以生成語音識別結果，解決了在躁雜環境下語音識別效果差的問題，實現了降噪效果好、識別精度高的技術效果。

技術領域

本申請涉及語音識別技術領域，特別是涉及一種融合式語音識別方法、裝置、系統、設備和存儲介質。

背景技術

在語音識別過程中，為了降低外界噪聲對識別干擾的常用方法是使用麥克風陣列對音頻數據進行降噪處理，即將麥克風陣列獲取的多路音頻數據輸入到降噪算法中進行回聲消除、去混響、波束形成等處理，從而得到干凈的單路音頻，然后再送入語音識別引擎進行識別。

然而，麥克風陣列及其降噪算法對外界噪聲，尤其是非穩態噪聲非常敏感。在信噪比低于5dB時，其性能會迅速下降。對于地鐵站站廳來說，當處于人流高峰以及列車過往時，環境信噪比會下降至0dB以下，導致單一維度的語音降噪算法難以滿足語音識別要求。

目前針對相關技術中在躁雜環境下語音識別效果差的問題，尚未提出有效的解決方案。

發明內容

本申請實施例提供了一種融合式語音識別方法、裝置、系統、設備和存儲介質，以至少解決相關技術中在躁雜環境下語音識別效果差的問題。

第一方面，本申請實施例提供了一種融合式語音識別方法，應用于躁雜場景，包括：

獲取第一語音數據流；

獲取圖像數據，在所述圖像數據包括用戶的人臉圖像數據以及用戶的唇動圖像數據的情況下，生成第一降噪增強指令；

根據所述第一降噪增強指令，對所述第一語音數據流進行處理以獲得第二語音數據流；