[發明專利]一種基于雙流卷積注意力的動作識別方法有效
| 申請號: | 202110116862.0 | 申請日: | 2021-01-28 |
| 公開(公告)號: | CN112926396B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 李平;馬浩男;曹佳晨;徐向華 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱亞冠 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙流 卷積 注意力 動作 識別 方法 | ||
本發明公開了一種基于雙流卷積注意力的動作識別方法。本發明方法首先對視頻做預處理獲得幀圖像序列與光流圖像序列,并分別提取視頻的外觀特征表示與動作特征表示;然后構建卷積注意力模塊獲得幀圖像和光流圖像的注意力特征表示,并通過雙流融合模塊對兩種注意力表示進行信息融合;接著訓練利用卷積注意力機制和雙流融合方法的動作識別模型,并根據該模型對預處理后的新視頻輸出其動作類別。本發明方法不僅利用通道注意力和時空注意力捕獲視頻動作內容的潛在模式和時空關系,還通過雙流融合從全局角度對視頻的外觀特征與運動特征進行信息融合,有效緩解了視頻長期時序依賴的時序信息缺失問題,提高了動作識別的準確度。
技術領域
本發明屬于計算機技術領域,尤其是視頻分析中的動作識別技術領域,具體涉及一 種基于雙流卷積注意力的動作識別方法。
背景技術
近年來,各類視頻數據與日俱增,如何識別視頻的動作內容成為許多視頻處理任務 的基礎研究課題。動作識別技術主要是根據視頻的內容給出視頻動作的類別,在輔助駕駛、視頻內容審核、個性化推薦等多個應用場景有著十分重要的社會價值。例如,在車 輛輔助駕駛場景,動作識別技術可以幫助用戶通過手勢給導航系統發出指令,提升人們 的駕駛舒適度;在視頻內容審核中,動作識別系統可以輔助人工進行視頻內容審核,從 而提高審核效率、降低人力成本;在視頻個性化推薦中,動作識別技術將視頻按照內容 進行分類,根據用戶感興趣的話題類別為其推薦個性化的視頻內容。目前,基于深度學 習技術的視頻動作識別模型能夠以遠高于人工處理的效率完成動作分類任務,這將節省 大量的人工開銷。
卷積神經網絡(Convolutional Neural Networks,CNN)在圖像識別、目標檢測等計算機視覺任務上帶來顯著的性能提升。不同于單幅圖像,由圖像幀序列構成的視頻需 要考慮幀與幀之間的時序關系,所以研究人員提出了多種考慮時序信息的動作識別方法。 例如,三維卷積神經網絡(3D ConvNets)在二維卷積神經網絡(2D ConvNets)的基礎 上對其卷積核加入時序維度,通過時序卷積捕獲時序信息,有效提高識別準確率;雙流 (Two-Stream)方法則分別使用彩色(RGB)圖像和光流(Optical Flow)圖像提取空間 視覺特征和時序運動特征,再對兩種特征識別結果進行融合,從而準確理解視頻動作內 容。此外,視頻可能存在與動作類別無關的內容,而無關內容將干擾模型的識別準確率。 對此,目前主要采用兩種方法解決該問題:1)利用長短期記憶網絡(LSTM,Long Short-Term Memory)對卷積神經網絡提取的圖像幀特征進行處理,具體通過記憶單元保留關鍵特征 并遺忘無關信息,以減少無關內容對模型性能的影響;2)利用視覺注意力(Visual Attention)機制在特征圖的空間維度計算對應的注意力圖,據此獲取圖像幀的關鍵視覺 區域所表達的信息,并抑制無關內容所在的低注意力權重區域對模型的不利影響。
現有的視頻動作識別方法仍存在一些不足:第一,不同視頻幀內部的關鍵信息存在 差異,且不同幀的重要程度不相同,所以單一的視覺注意力無法有效捕獲關鍵信息;第二,三維卷積神經網絡受限于卷積核尺寸,僅能提取小范圍內多幀的短期依賴時序信息,缺少對長期依賴時序信息的提取;第三,多數基于雙流的方法直接將兩種特征的動作識 別結果進行加權求和,未考慮對空間特征和運動特征進行信息融合。因此,為了應對上 述不足,本發明從通道時空關系和特征融合的角度出發,提出一種基于雙流卷積注意力 的動作識別方法,以提高視頻動作識別準確率。
發明內容
本發明的目的就是針對現有技術的不足,提供一種基于雙流卷積注意力的動作識別 方法,利用卷積注意力機制完成通道和時空維度的動作信息特征提取,通過雙流融合刻畫長期依賴時序關系,以便獲得更能反映視頻數據潛在模式的特征表示,提升模型的動 作識別精度。
本發明方法首先獲取包含動作類別標記的視頻,然后進行以下操作:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110116862.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種超小型電源實現方法
- 下一篇:一種垂直結構的光電邏輯開關





