[發明專利]一種基于紅外微光望遠鏡的多源融合唇語識別方法和系統在審
| 申請號: | 202210442789.0 | 申請日: | 2022-04-25 |
| 公開(公告)號: | CN114821781A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 張亞坤;張敬;吳競寒;秦偉;印二威;謝良;羅治國;張皓洋;閆野 | 申請(專利權)人: | 中國人民解放軍軍事科學院國防科技創新研究院 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/143;G06V10/80;G06V10/82;G06N3/04;G10L15/25 |
| 代理公司: | 北京豐浩知識產權代理事務所(普通合伙) 11781 | 代理人: | 李強 |
| 地址: | 100071 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 紅外 微光 望遠鏡 融合 識別 方法 系統 | ||
本發明公開了一種基于紅外微光望遠鏡的多源融合唇語識別方法和系統,方法包括獲取紅外熱成像視頻和微光視頻,提取唇部區域的紅外熱成像圖像數據和微光圖像數據;使用多源融合唇語識別模型對唇部區域的紅外熱成像圖像數據和微光圖像數據進行識別,得到識別出的文本;將識別出的文本顯示或發送至其他接收設備。本發明所提供的方法,為在復雜光照環境、遠距離和特殊應用場合提供了更加安全可靠的信息獲取與交互方式,彌補了單一視頻數據來源特征提取和唇部圖像識別的局限性,通過多源數據特征融合建模極大地提高了唇語識別的準確性,拓展了唇語識別技術的應用范圍和場景,為唇語識別技術的發展提供了新的方向。
技術領域
本發明屬于語音識別領域,特別涉及一種基于紅外微光望遠鏡的多源融合唇語識別方法和系統。
背景技術
基于唇部圖像的語音解析是通過唇部動作來解析說話者所說的內容。近年來,國內在唇語識別方面發展速度十分迅速。例如,搜狗聯合清華天工研究院共同設計了基于模態重要程度的注意力機制,使模型可以自適應調整模態權重來融合音視覺特征。2019年,中科院計算所發布了目前最大規模的中文詞級唇讀數據集LRW-1000,其包含了復雜的變化條件,包括唇部角度、光照、語速等,模擬了自然條件下唇部樣本的分布,為今后國內外中文唇讀研究者提供了更豐富的標準研究樣本。雖然唇語識別技術在性能方面有了較大突破,但其準確率受光線、角度、訓練模型等因素的影響較大,特別是在光照亮度較低、距離使用者或被觀察者較遠時無法獲取有效的圖像數據。這種唇部圖像的獲取方式限制了唇語識別的應用環境與場合,無法滿足如戰術偵察、進攻目標信息獲取等特殊應用需求。
基于紅外和微光成像融合的望遠鏡可用于環境偵察、目標對象追蹤、搶險救援等多種場合,具有偵察距離遠、范圍廣,方便攜帶和適應性好等特點。紅外熱成像系統不受光照條件限制,可以全天候工作,具有較強的穿透霧、霾、雨、雪等極端氣象條件的能力,作用距離更遠。而微光成像響應速度快,敏感于目標對象的反射,分辨率較高。通過紅外微光融合的望遠鏡進行不同光照條件下的遠距離觀測和目標視頻圖像獲取,可以獲取目標對象的多源面部圖像數據,根據其面部信息進行唇語識別,從而更快速準確地得到目標對象的交互信息和意圖。這種唇部圖像獲取方式彌補了傳統唇語識別系統的數據采集限制,拓寬了唇語識別技術的應用領域與場合,提高了唇語識別系統的識別準確度,也為特殊應用場景如與特種作戰提供了更加安全可靠的信息獲取途徑。
發明內容
本發明提出了一種基于紅外微光望遠鏡的多源融合唇語識別方法,包括:
獲取紅外熱成像視頻和微光視頻,提取唇部區域的紅外熱成像圖像數據和微光圖像數據;
使用多源融合唇語識別模型對唇部區域的紅外熱成像圖像數據和微光圖像數據進行識別,得到識別出的文本;
將識別出的文本顯示或發送至其他接收設備。
進一步地,所述對獲取紅外熱成像視頻和微光視頻,提取唇部區域的紅外熱成像圖像數據和微光圖像數據包括:
采集紅外熱成像視頻和微光成像視頻后,將視頻數據進行分幀,得到目標對象的紅外熱成像圖像序列和微光圖像序列;
根據所述目標對象的紅外熱成像圖像和微光圖像進行人臉檢測和唇部區域標記,得到目標對象唇部區域的紅外熱成像圖像數據和微光圖像數據;
所述根據所述目標對象的紅外熱成像圖像序列和微光圖像序列進行人臉檢測和唇部區域標記,得到目標對象唇部區域的紅外熱成像圖像數據和微光圖像數據包括:
使用動態多幀平均算法對紅外熱成像圖像序列進行降噪;使用幀間差分法確定目標對象開始說話時的圖像起始點和終止點;根據人臉的幾何結構比例定位唇部區域,得到目標對象唇部區域的紅外熱成像圖像數據;
使用幀積分法對微光圖像序列進行圖像降噪;使用幀間差分法確定目標對象開始說話時的圖像起始點和終止點;根據人臉的幾何結構比例定位唇部區域,得到目標對象唇部區域的微光圖像數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍軍事科學院國防科技創新研究院,未經中國人民解放軍軍事科學院國防科技創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210442789.0/2.html,轉載請聲明來源鉆瓜專利網。





