[發明專利]一種多模態融合的動作識別裝置、方法和存儲介質有效
| 申請號: | 202110336423.0 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113065451B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 桑高麗;盧麗;黃俊潔;閆超 | 申請(專利權)人: | 四川翼飛視科技有限公司 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/40;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 尹玉 |
| 地址: | 610094 四川省成都市高新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多模態 融合 動作 識別 裝置 方法 存儲 介質 | ||
本發明公開了一種多模態融合的動作識別裝置、方法和存儲介質,本發明的網絡模型結構分為主干特征提取部分和識別分類部分,可端到端的進行模型訓練;其中,所述的主干特征提取部分分為空間信息提取部分和時序信息提取部分,兩部分采用串行結構搭建;所述的空間信息提取部分網絡采用卷積網絡構建,并行采用步長不同卷積核的卷積層模擬目標平移情況,減弱模型對目標偏移的敏感性;所述的時序信息提取部分采用變形注意力機制來提取幀與幀之間的關聯信息。本發明從空間域和時間域上將多模態信息融合訓練模型性能,減少模型過擬合情況,提高了動作識別準確率。
技術領域
本發明屬于動作識別的技術領域,具體涉及一種多模態融合的動作識別裝置、方法和存儲介質。
背景技術
隨著人工智能技術的快速發展,智能設備逐步滲入人們的生活中,廣泛應用于各種現實場景中,比如智能監控、人機交互、無人駕駛、支付系統等等。基于視頻數據研發的算法技術是深度學習領域中較為重要的研究方向之一,是一種利用計算機對視頻圖像進行理解的方法,給予機器感知三維世界的能力,所以受到眾多學者的研究關注。
動作識別是理解視頻數據中人類的運動信息的一門技術,通過對視頻序列幀圖像提取特征達到分類識別的目的,主要用于人機交互系統、智能交通等場景中。在動作識別技術的發展史中,依次出現了基于人工特征的傳統方法和基于深度學習技術的識別方法,近幾年,因為基于深度學習技術的識別方法取得了令人滿意的識別性能,逐漸成為主流,大致分為三類:時空雙流法、三維卷積法以及時序網絡法。時空雙流法是利用幀圖像和密集光流分別訓練卷積神經網絡,然后對得分進行融合分類,但是這種方法對長時間跨度場景的適用性較差,提取的時序信息有限。其次,三維卷積法是利用三維卷積核提取視頻數據的時序和空間特征進行分類識別,但是三維卷積操作計算量較大,大大影響算法的效率。最后,時序網絡法是將卷積神經網絡和循環網絡結合訓練視頻數據的方法,是近期最為有效的動作識別方法。
目前,大多數動作識別方法采用時序網絡法處理視頻幀數據,雖然循環網絡在動作識別領域取得了良好的性能,但循環網絡訓練時也會出現較大的計算量,并且在訓練時出現梯度發散降低表達能力。因此,急需提出一種在保留性能優勢的情況下降低計算量的動作識別方法,簡潔易操作。
發明內容
本發明的目的在于提供一種多模態融合的動作識別裝置、方法和存儲介質,旨在解決上述問題。
本發明主要通過以下技術方案實現:
一種多模態融合的動作識別裝置,包括數據采集模塊、訓練模塊、輸入模塊;所述數據采集模塊用于收集包含已標注的動作視頻片段數據并形成訓練樣本;所述訓練模塊用于將訓練樣本輸入網絡模型進行訓練;所述輸入模塊用于將待識別樣本輸入訓練后的網絡模型并輸出動作識別結果;
所述網絡模型包括主干特征提取部分和識別分類部分,首先將訓練樣本處理成多模態信息,并輸入主干特征提取部分依次提取空間特征和時序特征,然后輸送到識別分類部分進行分類處理;所述主干特征提取部分由串行結構依次搭建的空間信息提取部分、特征變形層、時序信息提取部分組成;所述空間信息提取部分采用卷積網絡,并采用步長不同卷積核的卷積層模擬目標平移情況;所述時序信息提取部分采用注意力機制提取幀與幀之間的關聯信息。
本發明整體網絡模型結構分為主干特征提取部分和識別分類部分,可端到端的進行模型訓練;其中,所述的主干特征提取部分分為空間信息提取部分和時序信息提取部分,兩部分采用串行結構搭建;所述的空間信息提取部分網絡采用卷積網絡構建,并行采用步長不同卷積核的卷積層模擬目標平移情況,減弱模型對目標偏移的敏感性;所述的時序信息提取部分采用變形注意力機制來提取幀與幀之間的關聯信息。本發明從空間域和時間域上將多模態信息融合訓練模型性能,減少模型過擬合情況,提高動作識別準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川翼飛視科技有限公司,未經四川翼飛視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110336423.0/2.html,轉載請聲明來源鉆瓜專利網。





