[發明專利]語音識別方法、裝置和電子設備在審
| 申請號: | 202011098653.X | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112435653A | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 宮一塵 | 申請(專利權)人: | 北京地平線機器人技術研發有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/25;G10L25/12;G10L25/24;G10L25/30;G10L25/57;G10L25/60;G10L21/0208 |
| 代理公司: | 北京匯思誠業知識產權代理有限公司 11444 | 代理人: | 周放 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 電子設備 | ||
本公開提供了一種語音識別方法、裝置和電子設備,上述語音識別方法中,在用戶進行語音輸入時,可以在采集音頻的同時,對用戶的唇部進行拍攝,然后基于當前幀圖像和歷史幀圖像的至少一個第一唇部區域,獲取用戶在當前幀圖像中的第二唇部區域;并行地,可以基于當前幀音頻和歷史幀音頻的至少一個第一語音特征,獲取當前幀音頻的第二語音特征。之后可以根據上述語音特征和上述唇部區域,獲取當前幀的音素概率分布,進而可以根據上述音素概率分布,獲得當前幀音頻的語音識別結果,從而可以實現將視頻的唇部區域和音頻的語音特征相結合,來進行語音識別,大大提高了語音識別在噪聲場景下的識別效果。
技術領域
本公開涉及語音識別技術領域,尤其涉及一種語音識別方法、裝置和電子設備。
背景技術
隨著數據處理技術的進步以及移動互聯網的快速普及,計算機技術被廣泛地運用到了社會的各個領域,隨之而來的則是海量數據的產生。其中,語音數據受到了人們越來越多的重視。語音識別技術,也被稱為自動語音識別(automatic speech recognition,ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列等。
發明內容
相關技術中,語音識別方案通常包括以下步驟:語音信號降噪、特征提取、音素分類和解碼,但是這種語音識別方案在高噪聲(即低信噪比)的場景下,語音識別的效果較差。
為了解決上述技術問題,提出了本公開。本公開的實施例提供了一種語音識別方法、裝置和電子設備。
本公開第一方面的實施例提供了一種語音識別方法,包括:獲取預設時間段內的視頻流和音頻流,所述預設時間段內的視頻流包括當前幀圖像和所述當前幀圖像之前的歷史幀圖像,所述預設時間段內的音頻流包括當前幀音頻和所述當前幀音頻之前的歷史幀音頻;獲取所述歷史幀圖像的至少一個第一唇部區域,并基于當前幀圖像和所述至少一個第一唇部區域,確定用戶在所述當前幀圖像中的第二唇部區域;以及,獲取所述歷史幀音頻的至少一個第一語音特征,并基于當前幀音頻和所述至少一個第一語音特征,獲取所述當前幀音頻的第二語音特征;其中,所述當前幀圖像中的第二唇部區域與所述第二語音特征對應;根據所述至少一個第一唇部區域、所述第二唇部區域、所述至少一個第一語音特征和所述第二語音特征,獲取當前幀的音素概率分布;根據所述音素概率分布,獲得所述當前幀音頻的語音識別結果。
上述語音識別方法中,在用戶進行語音輸入時,可以在采集音頻的同時,對用戶的唇部進行拍攝,然后基于當前幀圖像和歷史幀圖像的至少一個第一唇部區域,獲取用戶在當前幀圖像中的第二唇部區域;并行地,可以基于當前幀音頻和歷史幀音頻的至少一個第一語音特征,獲取當前幀音頻的第二語音特征。之后可以根據上述語音特征和上述唇部區域,獲取當前幀的音素概率分布,進而可以根據上述音素概率分布,獲得當前幀音頻的語音識別結果,從而可以實現將視頻的唇部區域和音頻的語音特征相結合,來進行語音識別,大大提高了語音識別在噪聲場景下的識別效果。
本公開第二方面的實施例提供了一種語音識別裝置,包括:獲取模塊,用于獲取預設時間段內的視頻流和音頻流,所述預設時間段內的視頻流包括當前幀圖像和所述當前幀圖像之前的歷史幀圖像,所述預設時間段內的音頻流包括當前幀音頻和所述當前幀音頻之前的歷史幀音頻;獲取所述歷史幀圖像的至少一個第一唇部區域,并基于當前幀圖像和所述至少一個第一唇部區域,確定用戶在所述當前幀圖像中的第二唇部區域;以及,獲取所述歷史幀音頻的至少一個第一語音特征,并基于當前幀音頻和所述至少一個第一語音特征,獲取所述當前幀音頻的第二語音特征;其中,所述當前幀圖像中的第二唇部區域與所述第二語音特征對應;識別模塊,用于根據所述至少一個第一唇部區域、所述第二唇部區域、所述至少一個第一語音特征和所述第二語音特征,獲取當前幀的音素概率分布;解碼模塊,用于根據所述識別模塊獲取的音素概率分布,獲得所述當前幀音頻的語音識別結果。
本公開第三方面的實施例提供了一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序用于執行第一方面提供的語音識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京地平線機器人技術研發有限公司,未經北京地平線機器人技術研發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011098653.X/2.html,轉載請聲明來源鉆瓜專利網。





