[發明專利]一種基于Attention-LSTM網絡的視頻行為識別方法有效
| 申請號: | 201811397129.5 | 申請日: | 2018-11-22 |
| 公開(公告)號: | CN109740419B | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 陸生禮;龐偉;向麗蘋;范雪梅;舒程昊;吳成路;阮小千;梁彪;鄒濤 | 申請(專利權)人: | 東南大學;東南大學—無錫集成電路技術研究所;南京三寶科技股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 施昊 |
| 地址: | 214135 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 attention lstm 網絡 視頻 行為 識別 方法 | ||
1.一種基于Attention-LSTM網絡的視頻行為識別方法,其特征在于,首先,通過光流圖序列生成模塊對輸入的RGB圖序列進行變換,得到光流圖序列;其次,將得到的光流圖序列與原RGB圖序列輸入時域注意力取幀模塊,分別選取兩種圖序列中非冗余的關鍵幀;然后,將兩種圖的關鍵幀序列輸入AlexNet網絡特征提取模塊,分別提取出兩種幀圖的時序特征和空間特征,同時,在AlexNet網絡的最后一層卷積層與全連接層之間通過特征分權加強模塊,對最后一層卷積層輸出的特征圖執行加重與動作相關性強的特征權重的操作;將兩個AlexNet網絡特征提取模塊輸出的特征圖輸入LSTM網絡行為識別模塊,分別對兩種圖片進行識別,并將兩種識別結果通過融合模塊按比例融合,得到最終的視頻行為識別結果;
所述AlexNet網絡特征提取模塊依次包括5層卷積層和1層全連接層,圖片先經過前5層卷積層進行特征提取,再在第5層特征圖上通過特征分權加強模塊加大與動作相關部位的權重,將特征分布變化的特征圖進行最后的全連接操作得到輸出的高維特征圖;
將當前時刻幀圖在經過AlexNet網絡第5層卷積后的特征與上一時刻在經過LSTM網絡的隱藏層特征共同作為輸入送入特征分權加強模塊,特征分權加強模塊實現對兩個特征矢量距離的計算,獲得送入AlexNet網絡全連接層輸入的權重系數,將該權重系數與第5層卷積后的特征相乘得到的與動作有關的關鍵部位信息的特征送入AlexNet網絡的全連接層,得到幀圖的高維特征。
2.根據權利要求1所述基于Attention-LSTM網絡的視頻行為識別方法,其特征在于,所述光流圖序列生成模塊生成的光流圖與原RGB圖的尺寸相同。
3.根據權利要求1所述基于Attention-LSTM網絡的視頻行為識別方法,其特征在于,所述時域注意力取幀模塊采用注意力機制,計算序列圖片之間的矢量距離,將距離小于設定閾值的幀圖去除,則保留的幀圖構成關鍵幀序列。
4.根據權利要求1所述基于Attention-LSTM網絡的視頻行為識別方法,其特征在于,所述特征分權加強模塊利用一個神經網絡實現,該神經網絡的損失函數loss如下:
上式中,t為當前時刻幀圖,T為一個行為的總時刻幀圖,K為每個特征圖上的特征值總數量,lt,i為該神經網絡訓練得到的權重系數值,是對一個行為的序列幀在一個像素點的值累加,是對所有像素點的值累加。
5.根據權利要求1所述基于Attention-LSTM網絡的視頻行為識別方法,其特征在于,在LSTM網絡行為識別模塊中,1個LSTM單元的輸入是當前時刻幀圖特征信息xt與上一時刻特征信息ht-1,利用輸入門、遺忘門和輸出門控制LSTM單元的輸出;
所述輸入門控制當前候選記憶單元特征的輸入,輸入門it如下:
it=f(Wixt+Uiht-1+bi)
上式中,f為激活函數,Wi、Ui、bi分別為輸入門中xt、ht-1的權值系數和偏置;
所述遺忘門控制上一時刻記憶單元特征的輸入,遺忘門ft如下:
ft=f(Wfxt+Ufht-1+bf)
上式中,Wf、Uf、bf分別為遺忘門中xt、ht-1的權值系數和偏置;
所述輸出門控制融合了當前候選記憶單元特征與上一時刻記憶單元特征的當前記憶單元特征的輸入,輸出門如下:
ot=f(Woxt+Uoht-1+bo)
上式中,Wo、Uo、bo分別為輸出門中xt、ht-1的權值系數和偏置;
當前候選記憶單元特征
上式中,Wc、Uc、bc分別為輸出門中xt、ht-1的權值系數和偏置;
當前記憶單元特征ct:
根據ct得到經過該LSTM單元的隱藏層信息ht:
ht=ot·tanh(ct)
選擇不同的卷積核信息得到多個LSTM隱藏單元,再經過全連接層和Softmax層送入融合模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學;東南大學—無錫集成電路技術研究所;南京三寶科技股份有限公司,未經東南大學;東南大學—無錫集成電路技術研究所;南京三寶科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811397129.5/1.html,轉載請聲明來源鉆瓜專利網。





