[發明專利]基于空時特征的視頻行為分類方法在審
| 申請號: | 202010434466.8 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111582230A | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 徐杰;宋瑞;廖靜茹;張昱航 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06T7/269 |
| 代理公司: | 成都正華專利代理事務所(普通合伙) 51229 | 代理人: | 陳選中 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 視頻 行為 分類 方法 | ||
1.一種基于空時特征的視頻行為分類方法,其特征在于,包括:
S1、獲取視頻數據集,將其分成訓練集和測試集,對訓練集進行預處理后從中提取得到訓練視頻RGB幀集,對測試集進行預處理后從中提取測試視頻RGB幀集;
S2、構建雙通道網絡結構,其包括空間特征提取網絡、時間特征提取網絡、特征融合網絡以及softmax網絡,空間特征提取網絡與時間特征提取網絡并聯后,與特征融合網絡和softmax網絡依次串聯,所述空間特征提取網絡為inception網絡,所述時間特征提取網絡包括依次串聯的Motionnet網絡、帶OFF子網絡的inception網絡,所述Motionnet網絡包括下采樣網絡和上采樣網絡,所述下采樣網絡包括若干卷積層,所述上采樣網絡包括若干反卷積層;
S3、利用訓練視頻RGB幀集訓練若干輪雙通道網絡結構,每輪訓練過程中所采用的訓練視頻RGB幀不相同,保存最后一輪得到的網絡結構參數,得到視頻行為分類網絡模型;
S4、將測試視頻RGB幀集輸入所述視頻行為分類網絡模型,輸出視頻行為分類結果。
2.根據權利要求1所述基于空時特征的視頻行為分類方法,其特征在于,所述步驟S1中,預處理包括:使用拉伸或者壓縮方法將視頻RGB幀大小處理為224x224。
3.根據權利要求1所述基于空時特征的視頻行為分類方法,其特征在于,對于雙通道網絡結構的每一輪訓練,其訓練過程包括:
將訓練視頻RGB幀輸入空間特征提取網絡,提取得到行為空間特征;
將訓練視頻RGB幀輸入Motionnet網絡,計算得到光流;
將計算得到的光流輸入到帶OFF子網絡的inception網絡中,提取得到行為光流特征;
利用特征融合網絡,將行為空間特征和行為光流特征進行加權融合,得到空時特征;
將空時特征輸入softmax網絡中,得到訓練分類結果,根據訓練分類結果和訓練視頻RGB幀,對空間特征提取網絡、時間特征提取網絡、特征融合網絡以及softmax網絡進行梯度更新。
4.根據權利要求3所述基于空時特征的視頻行為分類方法,其特征在于,所述行為空間特征的提取方法具體為:
將訓練視頻RGB幀分成多段;
對于每段訓練視頻RGB幀,將其第一幀輸入空間特征提取網絡提取空間特征;
將從各段訓練視頻RGB幀提取到的空間特征進行融合,得到所述行為空間特征。
5.根據權利要求3所述基于空時特征的視頻行為分類方法,其特征在于,所述Motionnet網絡的下采樣網絡包括6個卷積層,上采樣網絡包括5個反卷積層,所述訓練視頻RGB幀的幀數量為11。
6.根據權利要求3所述基于空時特征的視頻行為分類方法,其特征在于,所述Motionnet網絡包括三個損失函數,各損失函數的權重值不同,且該三個損失函數插入所述MotionNet網絡的最后一層,且分別為針對重構后的兩幀圖像之間的像素級錯誤而生成的損失函數、平滑度損失函數和結構相似損失函數。
7.根據權利要求6所述基于空時特征的視頻行為分類方法,其特征在于,所述針對重構后的兩幀圖像之間的像素級錯誤而生成的損失函數如下:
其中,vx和vy分別是光流中x和y方向的速度,n是輸入的視頻RGB幀。
8.根據權利要求6所述基于空時特征的視頻行為分類方法,其特征在于,所述平滑度損失函數如下:
其中,Lam代表平滑度損失函數,分別代表光流中x方向對于x,y方向上的變化量,分別代表光流中y方向上對于x,y方向上的變化量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010434466.8/1.html,轉載請聲明來源鉆瓜專利網。





