[發明專利]基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法有效
| 申請號: | 202010107288.8 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN111325155B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 張祖凡;呂宗明;甘臣權;張家波 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 殘差式 cnn 多模態 特征 融合 策略 視頻 動作 識別 方法 | ||
1.一種基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法,其特征在于:包括以下步驟:
S1:基于傳統的卷積3D神經網絡C3D,將各個卷積模塊的連接方式改為殘差式連接,引入恒等映射;
S2:在殘差模塊中,利用3D核分解技術,將原始的3D卷積核分解為空間核和多個并行的多尺度時間核MTTL,以減少模型參數,接著,嵌入注意力模型CBAM,得到全新的殘差模塊A3Dblock;
S3:通過堆疊A3D block以及池化層,調整各個模塊的輸入輸出設置,完成最終的A3D殘差網絡的搭建;
S4:利用設計好的A3D卷積殘差神經網絡模型,搭建時空雙流識別模型,分別將RGB視頻圖像和光流圖像兩種模態作為網絡輸入;
S5:聯合利用多級特征融合與決策融合方法,首先在特征層面融合時間網絡和空間網絡中不同層特征,再通過決策級權值融合策略權衡多個softmax分類器的類分數向量,實現分數級決策融合;
S6:再利用主成分分析PCA降維算法,對融合后的特征描述子降維去相關,最后通過多分類的SVM分類器完成對視頻動作的分類識別;
步驟S2中所述的3D核分解包括:
利用3D核分解技術,將3×3×3卷積核沿著空間維度和時間維度分解,得到一個1×3×3的空間卷積核,以及一個3×1×1的時間卷積核,減少模型參數;同時并入1×1×1以及2×1×1不同尺度時間核,設計出多尺度的時間轉變層MTTL來提升對時間域中多粒度時間信息的提取能力;
步驟S2中所述在殘差模塊中引入注意力模塊CBAM,CBAM分為通道注意力CAM和空間注意力SAM,其中
在通道注意力模型中,首先將輸入特征F∈RC×W×H,其中C,W,H分別代表特征平面通道數、寬度與高度值,分別通過最大池化和平均池化,壓縮空間維度,再利用多層感知層(MLP)制取通道權重,最后相加,通過relu激活層,再映射到輸入特征各個特征通道,實現對輸入特征通道注意力分數的合理分配,過程計算表示為:Mc=relu{MLP(maxpool(F))+MLP(avgpool(F))},Mc為CAM的輸出,即通道加權后的顯著性特征;
在空間注意力模型中,同樣通過最大池化和平均池化,壓縮掉Mc的通道維度,通過串聯兩個特征描述子得到攜帶通道顯著性的兩通道特征,再利用一個卷積操作Conv計算Conv[maxpool(F),avgpool(F)}得到空間權重,歸一化后與Mc相加,得到空間顯著性特征;由于CAM與SAM在空間關注上互補,使得CBAM能實現對特征空間信息的全方位篩選;在殘差模塊中,CBAM模型直接接收空間核的輸出作為輸入,賦予模型有效的特征篩選機制。
2.根據權利要求1所述的基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法,其特征在于:步驟S1中,將原始C3D中各個特征模塊之間順序直連的方式改為殘差式連接,具體包括:
將特征模塊的原始輸入xn-1,即恒等映射,與其輸出的和作為新的輸出yn,表示為yn=R*(xn-1,W)+xn-1,其中W表示殘差模塊中的可訓練參數,通過殘差映射R*結合原始輸入xn-1,擬合網絡訓練中的可變殘差值,R*(xn-1,W)+xn-1表示shortcut連接,保證前層信息在向網絡更深層傳播時不易丟失,避免梯度彌散與梯度爆炸。
3.根據權利要求1所述的基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法,其特征在于:步驟S4中所述雙流識別模型的搭建過程如下:
使用A3D卷積殘差神經網絡作為雙流網絡的基礎模型,利用RGB圖像特征以及對應的光流特征分別作為空間流和時間流網絡的輸入;其中光流特征的獲取是通過利用空間金字塔模型SpyNet導出,該模型直接接入到雙流流網絡中,通過梯度的反向傳播與時間流網絡以及空間網絡一同參加訓練,微調自身參數。
4.根據權利要求1所述的基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法,其特征在于:步驟S5中所述多級特征融合與決策融合方法,具體包括:
分別從A3D卷積殘差神經網絡的不同特征層,包括A3D_2a、A3D_3a、A3D_5a以及softmax層,導出多級互補特征fi*,fi,其中fi*,fi分別表示來自時間流網絡以及空間流網絡的多級特征,接著對導出的特征采用加權求和的方式融合對應的時間流和空間流特征,用于權衡雙流網絡的貢獻,即計算Fi=Wi[fi,fi*],其中Fi,Wi分別是第i層特征融合的輸出和對應的權值融合參數矩陣;然后加權融合后的特征通過一個1×1×1的卷積層以及最大池化層,經過sofmax后得到由各層融合特征產生的決策分數,對各層的決策分數再進行一次分數級的權值融合,以制取具有強表征力的特征描述子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010107288.8/1.html,轉載請聲明來源鉆瓜專利網。





