[發明專利]一種多模態融合的動作識別裝置、方法和存儲介質有效
| 申請號: | 202110336423.0 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113065451B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 桑高麗;盧麗;黃俊潔;閆超 | 申請(專利權)人: | 四川翼飛視科技有限公司 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/40;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 尹玉 |
| 地址: | 610094 四川省成都市高新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多模態 融合 動作 識別 裝置 方法 存儲 介質 | ||
1.一種多模態融合的動作識別裝置,其特征在于,包括數據采集模塊、訓練模塊、輸入模塊;所述數據采集模塊用于收集包含已標注的動作視頻片段數據并形成訓練樣本;所述訓練模塊用于將訓練樣本輸入網絡模型進行訓練;所述輸入模塊用于將待識別樣本輸入訓練后的網絡模型并輸出動作識別結果;
所述網絡模型包括主干特征提取部分和識別分類部分,首先將訓練樣本處理成多模態信息,并輸入主干特征提取部分依次提取空間特征和時序特征,然后輸送到識別分類部分進行分類處理;所述主干特征提取部分由串行結構依次搭建的空間信息提取部分、特征變形層、時序信息提取部分組成;所述空間信息提取部分采用卷積網絡,并采用步長不同卷積核的卷積層模擬目標平移情況;所述時序信息提取部分采用注意力機制提取幀與幀之間的關聯信息。
2.根據權利要求1所述的一種多模態融合的動作識別裝置,其特征在于,所述空間信息提取部分由從前至后依次設置的并行卷積模塊、卷積層、批歸一化層、激活函數層組成;所述時序信息提取部分由從前至后依次設置的特征稀疏層、嵌入位置向量層、若干個多頭自注意力模塊、全連接層、層歸一化層、激活函數層組成。
3.根據權利要求2所述的一種多模態融合的動作識別裝置,其特征在于,所述并行卷積模塊利用卷積操作帶來的特征偏移模擬目標在場景中的位移,所述并行卷積模塊由從前至后依次設置的特征切片層、若干個單元模塊以及特征拼接層組成,所述單元模塊由從前至后依次連接的一維卷積層、卷積層、激活函數層組成。
4.根據權利要求3所述的一種多模態融合的動作識別裝置,其特征在于,所述并行卷積模塊由4個分支構成,且從上至下并將不同分支的卷積核的步長設為3、2、1、1。
5.根據權利要求2所述的一種多模態融合的動作識別裝置,其特征在于,所述特征稀疏層采用L1正則化算法;所述空間信息提取部分的激活函數為參數修正線性單元層,所述時序信息提取部分的激活函數為高斯誤差線性單元層。
6.根據權利要求1-5任一項所述的一種多模態融合的動作識別裝置,其特征在于,所述識別分類部分由從前至后依次設置的全連接層、神經元失活層、激活函數層、柔性最大值層組成。
7.根據權利要求1所述的一種多模態融合的動作識別裝置,其特征在于,還包括多模態信息處理層,用于將訓練樣本中的RBG圖像生成光流圖和變形光流圖,并與原RGB圖像組成5通道數據用于網絡模型訓練。
8.一種多模態融合的動作識別方法,采用權利要求1-6任一項所述的識別裝置進行,其特征在于,包括以下步驟:
步驟S100:收集包含已標注的動作視頻片段數據,并按設定的幀數打包成訓練樣本輸入網絡模型中訓練;
步驟S200:搭建網絡模型,將訓練樣本輸入到網絡模型中進行訓練;
步驟S300:利用損失函數計算預測概率與真實類別標簽之間的損失值;初始化學習率和相關超參數,使用預先訓練的模型初始化時序信息提取部分,隨機初始化空間信息提取部分,然后選用優化器對損失值進行優化,方向傳播更新權重參數,直至迭代次數達到最大迭代次數,最后測試損失值收斂并穩定時得到的網絡模型,得到最優網絡模型;
步驟S400:將待測的樣本輸入到最優網絡模型并輸出動作識別的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川翼飛視科技有限公司,未經四川翼飛視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110336423.0/1.html,轉載請聲明來源鉆瓜專利網。





