[發明專利]一種基于深度學習的視頻行為識別方法有效
| 申請號: | 202110764936.1 | 申請日: | 2021-07-07 |
| 公開(公告)號: | CN113255616B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 胡謀法;王玨;盧煥章;張瑤;張路平;沈杏林;肖山竹;陶華敏;趙菲;鄧秋群 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 長沙國科天河知識產權代理有限公司 43225 | 代理人: | 邱軼 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 視頻 行為 識別 方法 | ||
1.一種基于深度學習的視頻行為識別方法,其特征在于,所述方法包括:
獲取視頻數據,并對所述視頻數據進行預處理得到訓練樣本;
構建視頻行為識別網絡;所述視頻行為識別網絡為以二維卷積神經網絡Resnet作為骨干網絡,在所述骨干網絡中插入幀間時域信息提取模塊的卷積神經網絡;所述二維卷積神經網絡Resnet用于提取視頻中目標的靜態特征,所述幀間時域信息提取模塊用于對所述骨干網絡進行優化,使用雙線性操作來提取幀間信息特征;
采用所述訓練樣本對所述視頻行為識別網絡進行訓練,并進行參數優化,得到訓練好的視頻行為識別網絡模型;
獲取待識別視頻,并進行預處理,將預處理后的待識別視頻輸入到所述視頻行為識別網絡模型中,得到視頻行為分類結果;
其中:步驟:采用所述訓練樣本對所述視頻行為識別網絡進行訓練,并進行參數優化,得到訓練好的視頻行為識別網絡模型,包括:
將所述訓練樣本進行分類,得到訓練集和測試集;
將所述訓練集輸入到所述視頻行為識別網絡中進行網絡訓練,得到視頻行為預測分類結果;
根據所述視頻行為預測分類結果和所述測試集,采用基于交叉熵損失的帶動量隨機梯度下降法對所述視頻行為識別網絡進行參數優化,得到訓練好的視頻行為識別網絡模型;
其中:所述視頻行為識別網絡由1個第一特征提取子模塊、3個第二特征提取子模塊、1個第三特征提取子模塊以及1個全連接層組成;所述第一特征提取子模塊由1個卷積層和1個最大池化層組成;所述第二特征提取子模塊由1個時空特征提取模塊和最大池化層組成;所述第三特征提取子模塊由1個所述時空特征提取模塊以及全局池化層組成;
步驟:將所述訓練集輸入到所述視頻行為識別網絡中進行網絡訓練,得到視頻行為預測分類結果,包括:
將所述訓練集輸入到所述第一特征提取子模塊的卷積層中,得到第一卷積特征,將第一卷積特征輸入到第一特征提取子模塊的最大池化層進行空域最大值池化,得到第一最大值池化特征;
將所述第一最大值池化特征輸入到第一個所述第二特征提取子模塊的時空特征提取模塊中,得到第一時空融合特征;
將所述第一時空融合特征輸入到第一個所述第二特征提取子模塊的最大池化層中,得到第二最大值池化特征;
將所述第二最大值池化特征輸入到第二個所述第二特征提取子模塊中,得到第三最大值池化特征;
將所述第三最大值池化特征輸入到第三個所述第二特征提取子模塊中,得到第四最大值池化特征;
將所述第四最大值池化特征輸入到所述第三特征提取子模塊的時空特征提取模塊中,得到時空融合特征;并將所述時空融合特征輸入到所述第三特征提取子模塊的全局池化層,得到全局池化特征;
將所述全局池化特征輸入到全連接層,采用softmax作為激活函數,得到視頻行為預測分類結果。
2.根據權利要求1所述的方法,其特征在于,獲取視頻數據,并對所述視頻數據進行預處理得到訓練樣本,包括:
獲取視頻數據;
采用密集采樣法在所述視頻數據中隨機抽取連續若干幀圖像組成視頻塊;
將所述視頻塊中的圖像縮放為120像素×160像素大小,并從中隨機裁剪112像素×112像素大小的圖像;
將剪裁后圖像的灰度除以255,映射到[0,1]的數值區間范圍;
對裁剪后圖像的RGB三個通道分別進行去均值歸一化操作;
對所述視頻塊在水平方向以50%概率隨機翻轉,得到訓練樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110764936.1/1.html,轉載請聲明來源鉆瓜專利網。





