[發明專利]一種融合式語音識別方法、裝置、系統、設備和存儲介質在審
| 申請號: | 202010767361.4 | 申請日: | 2020-08-03 |
| 公開(公告)號: | CN111883130A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 陳曉松;李旭濱 | 申請(專利權)人: | 上海茂聲智能科技有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/25;G10L15/26;G10L15/20;G10L15/30 |
| 代理公司: | 上海領譽知識產權代理有限公司 31383 | 代理人: | 車超平;王琰 |
| 地址: | 201306 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 語音 識別 方法 裝置 系統 設備 存儲 介質 | ||
本申請涉及一種融合式語音識別方法、裝置、系統、設備及存儲介質,該方法包括通過獲取第一語音數據流;獲取圖像數據,在圖像數據包括用戶的人臉圖像數據以及用戶的唇動圖像數據的情況下,生成第一降噪增強指令;根據第一降噪增強指令,對第一語音數據流進行處理以獲得第二語音數據流;識別第二語音數據流,以生成語音識別結果,解決了在躁雜環境下語音識別效果差的問題,實現了降噪效果好、識別精度高的技術效果。
技術領域
本申請涉及語音識別技術領域,特別是涉及一種融合式語音識別方法、裝置、系統、設備和存儲介質。
背景技術
在語音識別過程中,為了降低外界噪聲對識別干擾的常用方法是使用麥克風陣列對音頻數據進行降噪處理,即將麥克風陣列獲取的多路音頻數據輸入到降噪算法中進行回聲消除、去混響、波束形成等處理,從而得到干凈的單路音頻,然后再送入語音識別引擎進行識別。
然而,麥克風陣列及其降噪算法對外界噪聲,尤其是非穩態噪聲非常敏感。在信噪比低于5dB時,其性能會迅速下降。對于地鐵站站廳來說,當處于人流高峰以及列車過往時,環境信噪比會下降至0dB以下,導致單一維度的語音降噪算法難以滿足語音識別要求。
目前針對相關技術中在躁雜環境下語音識別效果差的問題,尚未提出有效的解決方案。
發明內容
本申請實施例提供了一種融合式語音識別方法、裝置、系統、設備和存儲介質,以至少解決相關技術中在躁雜環境下語音識別效果差的問題。
第一方面,本申請實施例提供了一種融合式語音識別方法,應用于躁雜場景,包括:
獲取第一語音數據流;
獲取圖像數據,在所述圖像數據包括用戶的人臉圖像數據以及用戶的唇動圖像數據的情況下,生成第一降噪增強指令;
根據所述第一降噪增強指令,對所述第一語音數據流進行處理以獲得第二語音數據流;
識別所述第二語音數據流,以生成語音識別結果。
在其中的一些實施例中,在所述圖像數據包括用戶的人臉圖像數據以及用戶的唇動圖像數據的情況下,所述方法還包括:
生成數據流開啟指令;
根據所述數據流開啟指令,傳輸所述第二語音數據流。
在其中的一些實施例中,識別第二語音數據流,以生成語音識別結果包括:
在所述圖像數據不包括用戶的所述唇動圖像數據的情況下,在所述第二語音數據流插入終止標識符;
對所述終止標識符之前的所述第二語音數據流進行識別,以生成語音識別結果。
在其中的一些實施例中,在獲取圖像之后,所述方法還包括:
在所述圖像數據不包括用戶的人臉圖像數據的情況下,生成銷毀指令;
根據所述銷毀指令,銷毀所述第一語音數據流。
在其中的一些實施例中,在獲取圖像之后,所述方法還包括:
在所述圖像數據包括用戶的人臉圖像數據的情況下,判斷所述用戶的停留時間;
在所述停留時間達到預設時間閾值的情況下,生成第二降噪增強指令;
根據所述第二降噪增強指令,對所述第一語音數據流進行處理以獲得第三語音數據流;
在所述圖像數據包括用戶的唇動圖像數據的情況下,生成第一降噪增強指令;
根據所述第一降噪增強指令,對所述第三語音數據流進行處理以獲得第二語音數據流。
在其中的一些實施例中,在生成語音識別結果之后,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海茂聲智能科技有限公司,未經上海茂聲智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010767361.4/2.html,轉載請聲明來源鉆瓜專利網。





