[發明專利]基于顯著片段采樣的長視頻動作識別方法在審
| 申請號: | 202011387822.1 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112329738A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 王其聰;黃靖 | 申請(專利權)人: | 廈門大學;廈門大學深圳研究院 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 顯著 片段 采樣 視頻 動作 識別 方法 | ||
基于顯著片段采樣的長視頻動作識別方法,涉及計算機視覺技術。1)準備長視頻動作識別數據集;2)設計用于顯著片段采樣的采樣器和用于動作識別的分類器,通過采樣器對視頻運動特征顯著的部分進行采樣,分類器僅考慮采樣器采樣的片段,通過提取視頻顯著片段的時空特征進行動作分類;3)在大規模圖像數據集上,對采樣器的主干網絡ShuffleNet V2和分類器網絡膨脹3D卷積網絡進行預訓練,得到預訓練模型;4)將預訓練模型在長視頻動作識別數據集上利用反向傳播算法對整個模型進行端到端訓練,并保存訓練好的模型;5)利用訓練好的模型進行視頻顯著部分的采樣和動作分類。能有效去除冗余信息,減少模型計算量。
技術領域
本發明涉及計算機視覺技術,具體是涉及一種基于顯著片段采樣的長視頻動作識別方法。
背景技術
視頻的理解與識別是計算機視覺的基礎任務之一。近年來,隨著計算機算力的爆發和計算機視覺技術的不斷發展,視頻識別技術迅速興起并得到了廣泛關注。而識別視頻中的動作則是其中一個充滿挑戰而又具有較高實際應用價值的任務。動作識別任務的主要目標是判斷一段視頻中人的行為的類別。早期的動作識別主要基于興趣點的檢測和表示,例如梯度直方圖,時空興趣點檢測以及光流直方圖等。近年來,深度神經網絡在圖像分類和目標檢測等計算機視覺任務上取得了幾乎超越人類的效果。因此,一些基于深度學習的方法被應用于視頻動作識別任務中。Simonyan等人(Simonyan K,Zisserman A.Two-streamconvolutional networks for action recognition in videos[C]//Advances inneural information processing systems.2014:568-576.)提出了基于雙流的動作識別方法。該方法首次將視頻分成空間和時間兩個部分,分別使用RGB圖像和光流圖像送入兩支神經網絡并融合最終分類結果。Tran等人(Tran D,Bourdev L,Fergus R,et al.Learningspatiotemporal features with 3d convolutional networks[C]//Proceedings of theIEEE international conference on computer vision.2015:4489-4497.)將3D卷積應用于視頻動作識別領域,提出了3D卷積網絡,希望把ImageNet(遷移學習)的成功復制到視頻動作領域中。Carreira等人(Carreira J,Zisserman A.Quo vadis,action recognition?anew model and the kinetics dataset[C]//proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:6299-6308.)提出了一個基于3D卷積的雙流模型,網絡的主干借鑒了成熟的2D卷積網絡Inception-v1,將網絡中的2D卷積核換成了3D卷積核。膨脹3D卷積網絡進一步提高了視頻動作識別的準確率。為了獲得更有辨別力的時序特征,Wang等人(Wang X,Girshick R,Gupta A,et al.Non-local neuralnetworks[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2018:7794-7803.)提出了在網絡中加入全局感受模塊以獲取長期時序依賴。
然而上述工作都專注于短視頻動作識別任務,識別的視頻往往只有10秒甚至更短,面對包含數千幀且長達數分鐘的長視頻,這些方法就會因為巨大的計算量而無能為力。目前,長視頻動作識別任務受到的挑戰主要有:
1)由于現有模型需要對采樣得到的幀提取時空特征,因此對長視頻進行密集采樣時將會導致無法承受的巨大計算量。
2)在長達數分鐘的長視頻中,存在大量的冗余信息,將會導致動作識別性能降低。
3)由于視頻過長,因此在提取時序信息時,難以建立有效的長期時序依賴。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學;廈門大學深圳研究院,未經廈門大學;廈門大學深圳研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387822.1/2.html,轉載請聲明來源鉆瓜專利網。





