[發明專利]基于局部特征聚合描述符和時序關系網絡的視頻行為識別方法在審
| 申請號: | 201910357466.X | 申請日: | 2019-04-29 |
| 公開(公告)號: | CN110097000A | 公開(公告)日: | 2019-08-06 |
| 發明(設計)人: | 李春國;常穎;徐煜耀;趙清玄;徐琴珍;楊綠溪 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 蔣昱 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 時序關系 局部特征 視頻 聚合描述符 行為識別 多尺度 映射 融合 網絡 卷積神經網絡 行為識別結果 視頻幀序列 動作行為 人體動作 視頻采樣 輸入視頻 數據集中 特征融合 圖片特征 網絡參數 網絡結構 數據集 卷積 聚合 尺度 測試 分類 概率 優化 學習 | ||
1.基于局部特征聚合描述符和時序關系網絡的視頻行為識別方法,其特征在于:方法包括如下步驟:
(1)視頻采樣獲得多尺度有序視頻幀序列;
(2)使用卷積神經網絡提取圖片特征;
(3)將得到的特征映射輸入到VLAD層,將特征融合;
(4)使用分類層得到當前輸入視頻中的動作行為屬于數據集中各個類別的概率值;
(5)融合多個尺度的時序關系;
(6)在UCF101和something-something數據集上進行網絡的訓練與測試。
2.根據權利要求1所述的基于局部特征聚合描述符和時序關系網絡的視頻行為識別方法,其特征在于:所述步驟(1)中對視頻多尺度采樣,對于給定的,視頻V,將視頻均勻分為N段,從每段中分別隨機采樣得到N幀圖像序列,再從N幀圖像序列中下采樣得到不同長度的圖像序列,不同長度的有序幀序列用于學習不同尺度的時序關系。
3.根據權利要求1所述的基于局部特征聚合描述符和時序關系網絡的視頻行為識別方法,其特征在于:所述步驟(2)中使用BN-Inception網絡中的部分層進行圖像特征提取。
4.根據權利要求1所述的基于局部特征聚合描述符和時序關系網絡的視頻行為識別方法,其特征在于:所述步驟(3)中將傳統的VLAD算法引入卷積神經網絡,首先對局部特征屬于聚類的權重采用軟分配的方式使得VLAD變為可微的函數,參數可以通過誤差逆傳播算法反饋學習,再將特征維度增加一維,擴展了時間維特征,在時間和空間上進行特征聚合。
5.根據權利要求1所述的基于局部特征聚合描述符和時序關系網絡的視頻行為識別方法,其特征在于:所述步驟(4)中使用一層全連接層和softmax層得到當前輸入視頻中的動作行為屬于數據集中各個類別的概率值:全連接層將權重矩陣與輸入特征向量相乘再加上偏置項,將n個(-∞,+∞)的實數映射為m個(-∞,+∞)的實數,softmax將m個(-∞,+∞)的實數映射為m個(0,1)的實數(概率),同時保證它們之和為1。
6.根據權利要求1所述的基于局部特征聚合描述符和時序關系網絡的視頻行為識別方法,其特征在于:所述步驟(5)中多個尺度時序關系的融合:在softmax分類前,將每個尺度對應的全連接層得到的向量元素相加,最后再使用softmax層進行分類預測。
7.根據權利要求1所述的基于局部特征聚合描述符和時序關系網絡的視頻行為識別方法,其特征在于:所述步驟(6)中在UCF101和something-something數據集上的訓練和測試,訓練中使用Adam優化器,優化器中參數ε=10-4。整個訓練過程分為兩步,首先,初始化并固定VLAD的聚類中心,只訓練全連接層和softmax層,學習率設為0.01。第二步,同時微調分類層參數和VLAD層聚類中心,學習率設為10-4。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910357466.X/1.html,轉載請聲明來源鉆瓜專利網。





