[發明專利]一種基于雙流卷積注意力的動作識別方法有效
| 申請號: | 202110116862.0 | 申請日: | 2021-01-28 |
| 公開(公告)號: | CN112926396B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 李平;馬浩男;曹佳晨;徐向華 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱亞冠 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙流 卷積 注意力 動作 識別 方法 | ||
1.一種基于雙流卷積注意力的動作識別方法,其特征在于,該方法首先獲取包含動作類別標記的視頻,然后進行以下操作:
步驟(1).對視頻進行預處理,獲得RGB幀圖像序列VRGB和光流圖像序列VFlow,分別提取視頻的外觀特征表示FRGB和運動特征表示FFlow;具體是:
(1-1).對視頻V以每秒v幀的采樣率進行處理,得到RGB幀圖像序列其中,N表示RGB幀圖像總數目,表示序列中第i幅、寬為w、高為h的RGB三通道圖像;視頻V包含動作類別標記其中L為動作類別總數;v=10~30;
(1-2).對RGB幀圖像序列VRGB采用盧卡斯-卡納德方法計算,得到對應的光流圖像序列表示第i幀包含豎直方向與水平方向雙通道的光流圖像,
(1-3).將RGB幀圖像序列VRGB和光流圖像序列VFlow分別平均分成k段,并從各個段內隨機采樣m幀,得到其稀疏時間采樣表示和其中為m幀RGB圖像組成的片段,為m幀光流圖像組成的片段;
(1-4).使用Kinetics數據集上預訓練得到的膨脹三維卷積網絡模型I3D作為視覺特征提取器A;分別提取SRGB對應的外觀特征表示和SFlow對應的運動特征表示其中,和分別表示第j段經下采樣后m′幀的外觀特征圖和運動特征圖,通道數為c′、寬為w′、高為h′;
步驟(2).構建卷積注意力模塊,輸入為外觀特征表示FRGB和動作特征表示FFlow,輸出為通道注意力張量和時空注意力張量,對特征表示分別進行加權獲得外觀注意力特征表示和運動注意力特征表示具體是:
(2-1).構建的卷積注意力模塊包括通道注意力模塊和時空注意力模塊;通道注意力模塊包括平均池化層Avgpool3D(·)、最大池化層Maxpool3D(·)和具有一個隱藏層的多層感知機MLP(·);時空注意力模塊包括平均池化層AvgPool1D(·)、最大池化層MaxPool1D(·)和三維卷積層f7×7×7(·);
(2-2).采用(2-1)方法對外觀特征表示FRGB構建對應的外觀卷積注意力模塊包括通道注意力模塊和時空注意力模塊
(2-3).通道注意力模塊的輸入為輸出為k段的c′個通道的通道注意力權重序列
其中,通道注意力權重分別表示對特征圖進行三維時空平均池化操作和三維時空最大池化操作,MLP(·)由神經元數分別為c′、c′/2、c′的三層全連接層構成,σ(·)表示Sigmoid函數;
(2-4).時空注意力模塊的輸入為通道注意力權重序列加權的特征圖符號表示逐元素乘法操作;輸出為時空注意力權重序列
其中,時空注意力權重f7×7×7(·)表示卷積核大小為7×7×7、輸入通道數為2、輸出通道數為1的三維卷積層,分別表示對特征圖進行一維通道平均池化操作和一維通道最大池化操作,concat(·,·)表示特征圖在通道維度上的拼接操作;
(2-5).對外觀特征表示FRGB使用通道注意力權重序列和時空注意力權重序列加權得到外觀注意力特征表示其中,表示外觀注意力特征圖,
(2-6).采用(2-1)方法對運動特征表示FFlow構建對應的運動卷積注意力模塊其構建方式與外觀卷積注意力模塊相同;由此得到運動注意力特征表示表示運動注意力特征圖;
步驟(3).構建雙流融合模塊輸入為外觀注意力特征表示和運動注意力特征表示輸出為外觀雙流特征表示ZRGB和運動雙流特征表示ZFlow;具體是:
(3-1).雙流融合模塊用于兩種特征的相互融合,由多個特征降維層、Softmax層、特征恢復層以及殘差連接構成;
(3-2).雙流融合模塊的輸入為外觀注意力特征表示和運動注意力特征表示輸出為外觀雙流特征表示和運動雙流特征表示
其中,和分別表示雙流特征融合并殘差連接后的第j段外觀雙流特征圖和運動雙流特征圖;其中,特征降維層θ(·)、φ(·)、g(·)均表示卷積核大小為1×1×1、輸入通道數為c'、輸出通道數為c'/2的三維卷積層,θ(·)、φ(·)、g(·)將注意力特征的通道維度降為c'/2,符號(·)T表示向量或矩陣的轉置操作,表示特征相似度,Softmax層用于歸一化特征相似度,特征恢復層WZ(·)表示一個卷積核大小為1×1×1、輸入通道數為輸出通道數為c'的三維卷積層,WZ(·)將特征表示恢復至原始通道維度c',殘差連接是指計算式中雙流融合后特征與注意力特征的相加操作;
步驟(4).訓練由卷積注意力模塊和雙流融合模塊組成的動作識別模型;將新視頻進行預處理并輸入至該模型,獲得視頻內容的動作類別,完成動作識別任務;具體是:
(4-1).對外觀雙流特征表示ZRGB中的各段外觀雙流特征圖進行三維時空平均池化,對運動雙流特征表示ZFlow中的各段運動雙流特征圖進行三維時空平均池化,
然后將其池化后的結果輸入至由全連接層與Softmax層構成的輸出層中,得到各段的外觀動作得分和運動動作得分和均表示經過Softmax層歸一化后的動作類別概率;
(4-2).計算各段的外觀動作得分RRGB的平均值,得到平均外觀動作得分計算各段的運動動作得分RFlow的平均值,得到平均運動動作得分取和的平均,作為視頻的最終動作得分
(4-3).根據視頻V動作類別標記λ和最終動作得分R計算交叉熵損失,利用隨機梯度下降算法調整更新輸出層雙流融合模塊外觀卷積注意力模塊以及運動卷積注意力模塊的參數,完成動作識別模型的構建;
(4-4).將新視頻V′按照步驟(1)進行預處理得到外觀特征表示F′RGB和運動特征表示F′Flow,并將其輸入至動作識別模型獲得動作得分根據動作得分獲得視頻內容的動作類別即為R′中得分最高元素所對應的索引,完成動作識別任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110116862.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種超小型電源實現方法
- 下一篇:一種垂直結構的光電邏輯開關





