[發明專利]基于兩階段運動建模和注意力的動作視頻分類方法和系統有效
| 申請號: | 202210980577.8 | 申請日: | 2022-08-16 |
| 公開(公告)號: | CN115063731B | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 盧修生;趙思成;程樂超;蘇慧;宋明黎 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京志霖恒遠知識產權代理有限公司 11435 | 代理人: | 戴莉 |
| 地址: | 311121 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 階段 運動 建模 注意力 動作 視頻 分類 方法 系統 | ||
本發明公開了一種基于兩階段運動建模和注意力的動作視頻分類方法和系統,包括以下步驟:步驟S1:構建采樣幀輸入至主干網絡;步驟S2:第一階段段內運動信息建模,輸出包含短時運動信息的視頻卷積特征;步驟S3:第二階段段間運動信息建模,輸出融合了短時運動信息和長時運動信息的空間塊注意力視頻卷積特征;步驟S4:經過全連接層后得到各視頻段的分類結果并融合,訓練網絡。本發明利用卷積神經網絡的多層次結構,在網絡的較低層和較高層分別提取段內運動信息和段間運動信息,達到分階段運動綜合建模的目的。此外,本發明計算視頻卷積特征各空間塊之間的注意力關系,使得網絡同時具備了卷積操作和注意力機制的短距離和長距離建模能力。
技術領域
本發明涉及計算機視覺與模式識別技術領域,尤其涉及一種基于兩階段運動建模和注意力的動作視頻分類方法和系統。
背景技術
隨著移動互聯網的發展,視頻作為一種信息媒介已經深入影響到我們的生活。視頻分析技術在自動駕駛、智能安防和機器人等領域都得到了廣泛應用。動作視頻分類任務作為視頻分析領域的核心任務,在科研界與工業界都引起了眾多關注。與圖像相比視頻增加了時間維度,所以如何對視頻中的時域運動信息進行建模是研究的核心問題。
在傳統視覺時代,手工設計視頻描述子的發展沿著兩個方向:(1)將二維圖像描述子推廣到三維視頻描述子,如3D SIFT、HOG3D描述子等;(2)提取視頻幀的特征再進行后處理來代表整個視頻的特征,如DTF、IDT描述子等。而在深度學習時代來臨之后,視頻深度網絡的發展仍然繼承了以上兩個方向:(1)使用3D卷積直接對連續視頻段進行建模,如C3D、I3D模型等;(2)從原始視頻采樣視頻幀,然后提取視頻幀的特征再進一步處理作為整個視頻的特征,如TSN、TSM模型等。其中在第二種研究方向中,一般通過顯式的時域建模模塊來提取運動信息,在Something-Something等動作相關數據集上取得了更好的識別效果,且相較于第一類方法有更低的運算開銷。比如目前的TSN/TSM/TEA等方法在對原始視頻分段后,對各段采樣視頻幀通過時域轉移操作、運動激勵模塊等方式進行運動建模。但是這些方法只關注了段間長時運動概況,而忽視了段內短時運動細節,從而丟失了視頻中關鍵性運動信息,而跨段時域建模也加大了動作解析的難度,影響了視頻識別效果。
為此,我們提出一種基于兩階段運動建模和注意力的動作視頻分類方法和系統以解決上述技術問題。
發明內容
本發明為了解決上述技術問題,提供一種基于兩階段運動建模和注意力的動作視頻分類方法和系統。
本發明采用的技術方案如下:
一種基于兩階段運動建模和注意力的動作視頻分類方法,包括以下步驟:
步驟S1:對輸入的原始視頻進行均勻分段,每個視頻段隨機采樣連續多幀,得到采樣幀,并將所有所述采樣幀輸入至主干網絡;
步驟S2:在所述主干網絡的任意層第s層將所述主干網絡進行分段,在所述主干網絡的前s層進行第一階段段內運動信息建模,在每層利用多個2D卷積和1D按深度卷積的串聯組合分別進行空域建模和時域建模,所述采樣幀經過第一階段后輸出包含短時運動信息的視頻卷積特征;
步驟S3:在所述主干網絡的第s層之后網絡層進行第二階段段間運動信息建模,在每層利用多個2D卷積、1D按深度卷積和空間塊注意力模塊的串聯組合分別進行空域建模、時域建模和空間塊注意力操作,所述包含短時運動信息的視頻卷積特征經過第二階段后輸出融合了短時運動信息和長時運動信息的空間塊注意力視頻卷積特征;
步驟S4:各視頻段的所述融合了短時運動信息和長時運動信息的空間塊注意力視頻卷積特征經過所述主干網絡的全連接層后得到各視頻段的分類結果,并將所述分類結果進行平均融合得到原始視頻的分類結果,采用交叉熵損失函數對所述主干網絡進行訓練。
進一步地,所述步驟S2具體包括以下子步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210980577.8/2.html,轉載請聲明來源鉆瓜專利網。





