[發明專利]一種有效語音識別方法及裝置有效
| 申請號: | 201710573521.X | 申請日: | 2017-07-14 |
| 公開(公告)號: | CN107369449B | 公開(公告)日: | 2019-11-26 |
| 發明(設計)人: | 蔣化冰;蔡漢嘉;廖凱;齊鵬舉;方園;米萬珠;舒劍;吳琨;管偉;羅璇 | 申請(專利權)人: | 上海木木機器人技術有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L21/0208;G10L21/0272;G06K9/00 |
| 代理公司: | 31251 上海碩力知識產權代理事務所(普通合伙) | 代理人: | 郭桂峰<國際申請>=<國際公布>=<進入 |
| 地址: | 200335 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 有效 語音 識別 方法 裝置 | ||
本發明實施例提供一種有效語音識別的方法及裝置,所述方法包括:記錄聲源對象的語音數據,同時獲取所述聲源對象的臉部圖像數據;對所述語音數據進行ASR識別,獲得ASR識別結果,所述ASR識別結果包括若干條語音內容及對應的語音記錄時間點;對所述聲源對象的臉部圖像數據進行張口特征識別,獲得若干幀張口圖像和所述每幀張口圖像對應的圖像獲取時間點;以及,比對所述每條語音內容對應的語音記錄時間點的前后預設時間范圍內,是否有相應的張口圖像的圖像獲取時間點在此范圍內;若有,記錄對應的語音內容為有效語音。通過本方法及裝置,能夠從ASR識別結果中識別有效的語音數據,有效提高ASR識別結果的應用價值。
技術領域
本發明屬于多媒體技術領域,尤其涉及一種有效語音識別方法及裝置。
背景技術
隨著現代科技的飛速發展,各種電子設備,例如:手機、iPad、智能機器人等均具有錄音和自動語音識別(Automatic Speech Recognition,ASR)的功能。然而,單純的錄音,每筆錄音的同時會記錄下背景噪音、環境噪音、回聲等等,難免會將非真實的語音也記錄下來,經過對錄音數據的ASR識別,其ASR識別結果中必然同時包含有效的語音數據和無效的語音數據。那么,如何將ASR識別結果中的有效語音識別出來是需要解決的一項問題。
發明內容
綜上所述,本發明實施例提供一種有效語音識別方法及裝置,能夠從ASR識別結果中識別有效的語音數據,有效提高ASR識別結果的應用價值。
第一方面,本發明實施例提供一種有效語音識別方法,其特征在于,包括:記錄聲源對象的語音數據,同時獲取所述聲源對象的臉部圖像數據;對所述語音數據進行ASR識別,獲得ASR識別結果,所述ASR識別結果包括若干條語音內容及對應的語音記錄時間點;對所述聲源對象的臉部圖像數據進行張口特征識別,獲得若干幀張口圖像和所述每幀張口圖像對應的圖像獲取時間點;以及比對所述每條語音內容對應的語音記錄時間點的前后預設時間范圍內,是否有相應的張口圖像的圖像獲取時間點在此范圍內;若有,記錄對應的語音內容為有效語音。
進一步的,所述每條語音內容對應的語音記錄時間點為:記錄所述每條語音內容開始的時間點、記錄所述每條語音內容中間的時間點、或者,記錄所述每條語音內容結束的時間點。
進一步的,所述獲取所述聲源對象的臉部圖像數據具體包括:攝像頭偵測到所述聲源對象的人臉;聚焦所述人臉,使人臉范圍占據所述攝像頭鏡頭的預設值;獲取所述聲源對象的臉部圖像數據。
進一步的,所述對所述聲源對象的臉部圖像數據進行張口特征識別具體包括:定位所述臉部圖像數據的嘴型特征;以及判斷嘴型的張口高度與嘴唇高度的比例是否超過或等于預設的比例;當超過或等于,識別所述的臉部圖像數據為張口圖像;其中,所述張口高度為上嘴唇下邊緣與下嘴唇上邊緣之間的距離,所述嘴唇高度為上嘴唇上邊緣與下嘴唇下邊緣之間的距離。
進一步的,所述每條語音內容對應的語音記錄時間點的前后預設時間范圍為所述語音記錄時間點的前后1秒。
第二方面,本發明實施例提供一種有效語音識別裝置,包括:錄音裝置,用于記錄聲源對象的語音數據;攝像裝置,用于與所述錄音裝置同步記錄所述聲源對象的臉部圖像數據;ASR識別裝置,用于對所述語音數據進行ASR識別,獲得ASR識別結果,所述ASR識別結果包括若干條語音內容及對應的語音記錄時間點;圖像偵測裝置,用于對所述聲源對象的臉部圖像數據進行張口特征識別,獲得若干幀張口圖像和所述每幀張口圖像對應的圖像獲取時間點;以及有效語音提取裝置,用于比對所述每條語音內容對應的語音記錄時間點的前后預設時間范圍內,是否有相應的張口圖像的圖像獲取時間點在此范圍內;若有,記錄對應的語音內容為有效語音。
進一步的,所述每條語音內容對應的語音記錄時間點為:記錄所述每條語音內容開始的時間點、記錄所述每條語音內容中間的時間點、或者,記錄所述每條語音內容結束的時間點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海木木機器人技術有限公司,未經上海木木機器人技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710573521.X/2.html,轉載請聲明來源鉆瓜專利網。





