[發明專利]一種基于時空注意力機制的人體動作識別方法有效
| 申請號: | 202011242807.8 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112364757B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 張強;于華;候亞慶;葛宏偉;周東生 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/25;G06V10/44;G06V10/80;G06V10/82;G06V10/774;G06N3/04;G06N3/08 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉;溫福雪 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時空 注意力 機制 人體 動作 識別 方法 | ||
1.一種基于時空注意力機制的人體動作識別方法,其特征在于,步驟如下:
(1)人體動作視頻數據的預處理
將數據集的人體動作視頻中的片段S進行隨機翻轉和裁剪預處理操作,截取成n塊人體動作視頻片段S1,S2,...,Sn,從截取的每個人體動作視頻片段中隨機選取單幀以及堆疊的多個光流幀分別作為空間網絡和時間網絡的輸入;空間網絡的輸入為隨機選取的單個視頻幀;時間網絡的輸入為,預先計算人體運動的光流軌跡,并將提取到的光流特征存儲為JPEG圖像,堆疊光流幀圖像作為時間網絡的輸入;
(2)空間特征提取以及特征融合
首先,將步驟(1)中預處理之后的視頻幀輸入到卷積網絡進行全局的空間特征提取;其次,采用空間注意力機制對視頻幀中人體部位的不同區域特征給予不同權重的關注,獲取輸入視頻幀中的感興趣區域部分并且對獲取到的局部區域進行特征提取;最后將學習到的區域特征與原始視頻幀的全局特征進行融合;具體如下:
(2.1)全局空間特征提取;采用BN-Inception卷積網絡對空間網絡的輸入進行特征提取,獲得全局空間特征;
(2.2)局部區域空間特征提取;局部區域空間特征提取部分通過采用空間仿射變換模型來獲取空間網絡輸入中人體部位的感興趣的區域特征,并作為注意力機制;
針對空間網絡的輸入,采用空間仿射變換模型對人體部位的不同區域提取的視覺特征給予不同權重的關注,獲取輸入視頻幀中的感興趣區域部分并且對獲取到的局部區域進行特征提取;空間仿射變換模型可以在訓練的過程中自動選擇感興趣的區域特征,同時實現對各種形變的數據進行空間變換;在空間變換網絡的同一層插入多個并行的空間變換網絡提取多個局部區域特征,從而結合多個局部區域特征進行分類;
空間變換網絡結構由三部分組成,分別為Localisation Net,Grid generator,Sampler;空間變換網絡架構注意力機制的執行過程如下;
首先,Localisation Net生成空間仿射變換的參數矩陣;
其中,sx、sy、tx和ty表示用于注意裁剪、平移和各向同性尺度的變化參數;
其次,Grid Generator根據輸出特征圖V中的坐標點和變化參數θ,計算出輸入特征圖U中的坐標點,表示從輸入feature map(U)到輸出feature map(V)的映射矩陣;采用的空間變換的公式過程定義如下;
其中,和代表原坐標和目標坐標,Tθ(G)為仿射變換函數,Aθ為空間變換參數的矩陣,式子中的θ矩陣為空間變換參數矩陣;假設U和V的每個像素點的坐標分別為和得到U到V的點坐標變換;
最后,Sampler根據計算出的V中每個點對應到U的坐標點,直接根據V的坐標點取得對應到U中坐標點的像素值來進行填充,填充公式表示為:
其中,n和m表示遍歷原圖U的所有坐標點,Unm表示原圖U中某個點的像素值,k()為取樣核函數,φ為填充的參數,表示V中第i個點要到U圖中找的對應點的坐標,表示的坐標是U圖上的;k表示使用不同的方法來填充,通常使用雙線性插值,見公式(3):
其中,Unm表示原圖U中某個點的像素值,n代表橫坐標m代表縱坐標,xis、yis代表原坐標,i∈[1,HW],c∈[1,3],兩個∑∑篩出四個鄰近插值點,max()函數表示求最大值;
(2.3)空間特征融合
根據步驟(2.2)得到的人體動作的感興趣區域部分,將學習到的局部區域特征與原始視頻幀的全局特征進行融合;在對卷積網絡進行訓練過程中激活函數采用的是Relu函數,通過交叉熵損失函數和隨機梯度下降算法優化網絡;在進行特征圖融合時,融合層的位置選取在BN-Inception架構的最后一個卷積層和全連接層之間;
特征融合時采用的是緊湊雙線性池化方法,融合的位置在基礎網絡結構的最后一個卷積層和完全連接層之間,特征維度由高維空間映射到低維空間特征;找到一個映射函數Φ(x),Φ(y)≈k(x,y)使得兩組雙線性池化特征x和特征y的內積維度B(x),B(y)得以降低;具體的公式表示如下:
其中,x和y表示兩種特征,即為緊湊雙線性池化的表示,Φ(x),Φ(y)≈k(x,y)代表映射函數;
(3)時空信息交互
首先提取人體動作視頻片段的時間特征,然后將提取的時間特征與步驟(2)中空間特征進行時空信息交互;具體如下:
(3.1)時間特征提取
將步驟(1)預處理之后的人體動作視頻片段的樣本輸入到時間卷積網絡BN-Inception,通過卷積網絡結構進行時空特征的提取,同時使用預處理之后的數據對卷積網絡進行訓練;
(3.2)時空信息交互
通過將步驟(3.1)提取的時間特征與步驟(2)中提取的空間特征進行時空特征融合,從而實現時空信息交互;特征融合方法采用的是步驟(2.3)中的緊湊雙線性池化方法,來捕獲時空特征不同通道的對應關系,進行信息交互;然后,繼續對時空信息進行特征提取,設置兩個卷積層來產生每個位置的權重,再使用softmax生成輸出時空信息的特征圖;
(4)全局信息特征融合
原始視頻數據經過步驟(1)~(3)的處理之后,將產生的空間、時間以及時空交互特征三個特征源通過步驟(2.3)中的緊湊雙線性池化方法進行融合得到全局特征,測試全局特征融合的結果,得到一個全局特征向量,然后將特征輸入到softmax進行分類,通過輸出得到的最大值對應的類別得出最后的人體動作的分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011242807.8/1.html,轉載請聲明來源鉆瓜專利網。





