[發明專利]一種基于Attention-LSTM網絡的視頻行為識別方法有效
| 申請號: | 201811397129.5 | 申請日: | 2018-11-22 |
| 公開(公告)號: | CN109740419B | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 陸生禮;龐偉;向麗蘋;范雪梅;舒程昊;吳成路;阮小千;梁彪;鄒濤 | 申請(專利權)人: | 東南大學;東南大學—無錫集成電路技術研究所;南京三寶科技股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 施昊 |
| 地址: | 214135 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 attention lstm 網絡 視頻 行為 識別 方法 | ||
本發明公開了一種基于Attention?LSTM網絡的視頻行為識別方法。通過光流圖序列生成模塊對輸入的RGB圖序列進行變換,得到光流圖序列;將光流圖序列與原RGB圖序列輸入時域注意力取幀模塊,分別選取兩種圖序列中非冗余的關鍵幀;將兩種圖的關鍵幀序列輸入AlexNet網絡特征提取模塊,分別提取出兩種幀圖的時序特征和空間特征,通過特征分權加強模塊,對最后一層卷積層輸出的特征圖執行加重與動作相關性強的特征權重的操作;將兩個AlexNet網絡特征提取模塊輸出的特征圖輸入LSTM網絡行為識別模塊,分別對兩種圖片進行識別,并將兩種識別結果通過融合模塊按比例融合,得到最終的視頻行為識別結果。本發明不僅能實現從視頻中識別行為的功能,且能提高識別的準確率。
技術領域
本發明屬于計算機視覺領域,特別涉及了一種基于Attention-LSTM網絡的視頻行為識別方法。
背景技術
智能視頻分析是目前計算機視覺領域非常熱,也是極具挑戰的一個方向。智能視頻分析方向包含眾多的子研究方向,其中主要的兩個研究方向為行為識別和行為檢測。行為識別類似與圖像的分類,主要解決“視頻中的行為是什么”問題,給出一段只包含一個行為動作的修剪視頻,要求給視頻分類。行為檢測(或定位)和目標檢測一致,主要解決“視頻中是否有相應的行為發生,如果有,則發生在視頻幀序列的哪一段和在每一幀的什么位置”問題,這主要分兩步完成,一是類似于目標檢測中的候選區域提取,這步主要是從視頻中找出可能含有動作的視頻段;二是對該視頻段進行分類。
行為分類研究在深度學習出現之前,表現最好的算法是iDT算法,其思路是利用光流場來獲得視頻序列中的一些軌跡,再沿著軌跡提取HOF,HOG,MBH,trajectory4中的特征,其中HOF是基于灰度圖計算,另外幾個均基于密集光流計算;再利用Fisher Vector方法對特征進行編碼;最后基于編碼訓練結果訓練SVM,隨機森林等傳統的機器學習分類器方法進行分類和最終結果的輸出。深度學習問世后,實現了從特征提取到分類的端到端解決方案。Du Tran等人在二維的卷積核中引入時間維度,用三維的卷積核處理視頻,實現端到端的訓練,網絡結構簡單且速度快。因為視頻除了空間維度外,最大的痛點是時間序列問題,基于RNN網絡能很好處理序列問題,Du Wenbin等人提出的基于RNN的網絡算法引入姿態監督的機制,提高了視頻分類的效果。行為檢測中最大的難點是定位存在行為動作的視頻段。過去的行為檢測方法多采用滑動窗口法,然而基于滑動窗口法的動作定位非常耗時,時間效率低。
發明內容
為了解決上述背景技術提出的技術問題,本發明提供一種基于Attention-LSTM網絡的視頻行為識別方法,實現對視頻中目標行為的準確識別。
為了實現上述技術目的,本發明的技術方案為:
一種基于Attention-LSTM網絡的視頻行為識別方法,首先,通過光流圖序列生成模塊對輸入的RGB圖序列進行變換,得到光流圖序列;其次,將得到的光流圖序列與原RGB圖序列輸入時域注意力取幀模塊,分別選取兩種圖序列中非冗余的關鍵幀;然后,將兩種圖的關鍵幀序列輸入AlexNet網絡特征提取模塊,分別提取出兩種幀圖的時序特征和空間特征,同時,在AlexNet網絡的最后一層卷積層與全連接層之間通過特征分權加強模塊,對最后一層卷積層輸出的特征圖執行加重與動作相關性強的特征權重的操作;將兩個AlexNet網絡特征提取模塊輸出的特征圖輸入LSTM網絡行為識別模塊,分別對兩種圖片進行識別,并將兩種識別結果通過融合模塊按比例融合,得到最終的視頻行為識別結果。
進一步地,所述光流圖片序列生成模塊生成的光流圖與原RGB圖的尺寸相同。
進一步地,所述時域注意力取幀模塊采用注意力機制,計算序列圖片之間的矢量距離,將距離小于設定閾值的幀圖去除,則保留的幀圖構成關鍵幀序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學;東南大學—無錫集成電路技術研究所;南京三寶科技股份有限公司,未經東南大學;東南大學—無錫集成電路技術研究所;南京三寶科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811397129.5/2.html,轉載請聲明來源鉆瓜專利網。





