[發明專利]基于特征映射和多層時間交互注意力的行為識別方法有效
| 申請號: | 202110086627.3 | 申請日: | 2021-01-22 |
| 公開(公告)號: | CN112766177B | 公開(公告)日: | 2022-12-02 |
| 發明(設計)人: | 同鳴;金磊;董秋宇;邊放 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 田文英;王品華 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 映射 多層 時間 交互 注意力 行為 識別 方法 | ||
1.一種基于特征映射和多層時間交互注意力的行為識別方法,其特征在于,構建了包含視頻的時間信息和每個采樣圖像的空間信息的特征映射矩陣;提出了時間交互注意力,通過計算特征映射矩陣中不同采樣圖像的低維向量之間的相關程度得到時間交互注意力矩陣,該方法的具體步驟包括如下:
(1)生成訓練集:
(1a)選取視頻數據集中包含N個行為類別的RGB視頻組成樣本集,每個類別包含至少100個視頻,每個視頻有一個確定的行為類別,其中N50;
(1b)對樣本集中的每個視頻進行預處理,以獲取該視頻對應的RGB圖像,將所有預處理后視頻的RGB圖像組成訓練集;
(2)生成深度特征圖:
將訓練集中的每一個視頻中每幀RGB圖像依次輸入到Inception-v2網絡中,依次輸出每一個視頻中每幀圖像的尺寸為7×7×1024的深度特征圖Xk,其中,k表示視頻中采樣圖像的序號,k=1,2,...,60;
(3)構建特征映射矩陣:
(3a)使用一個空間向量化函數,將每個深度特征圖編碼為一個維數為1024的低維向量fk,k=1,2,...,60;
(3b)將每個視頻的60幀采樣圖像對應的低維向量按照幀的時間順序排列成行,得到一個二維特征映射矩陣其中,T表示轉置操作;
(4)生成時間交互注意力矩陣:
(4a)利用公式B=MTM,生成M的相關性矩陣B,該矩陣中第i行第j列的值表示視頻中第i個和第j個采樣圖像對應的兩個低維向量之間的相關程度;
(4b)對相關性矩陣B進行歸一化處理,得到尺寸為60×60的時間交互注意力矩陣A;
(5)生成時間交互注意力加權特征矩陣:
利用公式生成時間交互注意力加權特征矩陣其中,γ表示一個初始化為0的用于平衡MA和M兩項的比例參數;
(6)生成多層時間交互注意力加權特征矩陣:
(6a)利用公式生成的相關性矩陣對進行歸一化處理,得到尺寸為60×60的多層時間交互注意力矩陣
(6b)利用公式生成多層時間交互注意力加權特征矩陣其中,表示一個初始化為0的用于平衡和兩項的比例參數;
(7)獲取視頻的特征向量:
將每個視頻的多層時間交互注意力加權特征矩陣輸入到全連接層,輸出該視頻的特征向量;
(8)對視頻進行行為識別:
(8a)將每個視頻的特征向量輸入到softmax分類器中,利用反向傳播梯度下降法,迭代更新參數γ和全連接層的參數、softmax分類器的參數,直至交叉熵損失函數收斂為止,得到訓練好的各個參數;
(8b)對每個待識別的視頻等間隔采樣60幀RGB圖像,將每幀圖像的尺寸均縮放為256×340后進行中心裁剪,得到尺寸為224×224的60幀RGB圖像,將每幀RGB圖像輸入到Inception-v2網絡中,輸出待識別視頻的深度特征圖;
(8c)對每個待識別視頻的深度特征圖采用與步驟(3)至步驟(7)相同的處理方法進行處理,得到該視頻的特征向量,將每個特征向量輸入到訓練好的softmax分類器中,輸出每個視頻的行為識別結果。
2.根據權利要求1所述的基于特征映射和多層時間交互注意力的行為識別方法,其特征在于,步驟(1b )中所述的對樣本集中的每個視頻進行預處理指的是,對樣本集中的每個視頻等間隔采樣60幀RGB圖像,將每一幀RGB圖像的尺寸縮放為256×340后再進行裁剪,得到該視頻的尺寸為224×224大小的60幀的RGB圖像。
3.根據權利要求1所述的基于特征映射和多層時間交互注意力的行為識別方法,其特征在于,步驟(3a)中所述的空間向量化函數如下:
其中,fr,k表示第r個視頻中第k個采樣幀對應的低維向量,V(·)表示空間向量化函數,Xr,k表示第r個視頻中第k個采樣幀對應的深度特征圖,Xr,k,ij表示Xr,k的第i行第j列的值,∑表示求和操作,H和W分別表示Xr,k的行的總數和列的總數。
4.根據權利要求1所述的基于特征映射和多層時間交互注意力的行為識別方法,其特征在于,步驟(7)中所述全連接層的輸出神經元個數設置為1024。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110086627.3/1.html,轉載請聲明來源鉆瓜專利網。





