[發明專利]一種基于特征增強的視頻分類算法在審
| 申請號: | 202010006568.X | 申請日: | 2020-01-03 |
| 公開(公告)號: | CN111209433A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 張夢超;李永 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/75 | 分類號: | G06F16/75;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 增強 視頻 分類 算法 | ||
一種基于特征增強的視頻分類算法涉及視頻處理技術領域,方法包括:首先將待分類視頻分為K段,在每段中隨機選擇幀或者等距離選擇幀;通過預先訓練好的CNN模型來提取每一幀的圖像特征,將每一幀特征輸入特征融合層的池化模塊,池化模塊將提取的特征聚合成整個視頻的壓縮表示;根據每一段中的視頻表示輸入到特征增強層,特征增強層能夠增加重要特征的權重,并減少非重要特征的權重,然后通過聚合函數從K個片段中相同類別得分得到某個類別的最終分數。本發明能夠有效的提高分類效率,通過分為K段采樣,解決了視頻相鄰幀相似度高的問題,通過特征增強層選擇更重要的特征有效的提高了分類準確率。
技術領域
本發明屬于視頻信息內容發掘技術,更具體的是,設計一種基于注意力的特征增強的視頻分類。
背景技術
近年來,得益于深度學習強大的特征提取能力,視頻內容的識別和分析取得了突
破性進展。視頻內容識別的核心在于視頻特征的提取,視頻特征是視頻本身所具有的物理性質,能夠從不同的角度反映視頻內容。
目前主流的視頻分類的方法有三大類:基于LSTM的方法,基于3D卷積的方法和基于雙流的方法?;贚STM的方法將視頻的每一幀用卷積網絡提取出每一幀的特征,然后將每一個特征作為一個時間點,依次輸入到LSTM中。由于LSTM并不限制序列的長度,所以這種方法可以處理任意長度的視頻。但同時,因為LSTM本身有梯度消失和爆炸的問題,往往難以訓練出令人滿意的效果。而且,由于LSTM需要一幀一幀得進行輸入,所以速度也比不上其他的方法。
基于3D卷積的方法將原始的2D卷積核擴展到3D。類似于2D卷積在空間維度的作用方式,它可以在時間維度自底向上地提取特征?;?D卷積的方法往往能得到不錯的分類精度。但是,由于卷積核由2D擴展到了3D,其參數量也成倍得增加了,所以網絡的速度也會相應下降。
基于雙流網絡的方法會將網絡分成兩支。其中一支使用2D卷積網絡來對稀疏采樣的圖片幀進行分類,另一支會提取采樣點周圍幀的光流場信息,然后使用一個光流網絡來對其進行分類。兩支網絡的結果會進行融合從而得到最終的類標?;陔p流的方法可以很好地利用已有的2D卷積網絡來進行預訓練,同時光流又可以建模運動信息,所以精度往往也很高。但是由于光流的提取過程很慢,所以整體上制約了這一方法的速度。
發明內容
本發明的目的在于克服現有技術的不足,將視頻分為K段,縮短每次處理的時間序列,通過對每段特征的融合,再增加重要的特征從而提高分類的準確率與效率。
為實現上述發明目的,本發明一種基于特征增強機制的視頻分類方法,其特征在于,包括以下步驟:
將待分類視頻分為K(3)段;在每段中每隔n幀采樣一幀。
獲取每段視頻中的空間特征:將每段中所采樣的每一幀通過預先訓練的圖像處理模型提取每一幀的特征,通過卷積神經網絡CNN提取輸入視頻的空間特征。
通過LSTM循環神經網絡融合每段中的時間特征和空間。
然后在每段中取對應的LSTM網絡每個時刻取的輸出輸入到一個全連接層降維到1024維,可以起到降維,保留有用信息等作用。
將全連接層的輸出作為特征增強層的輸入,在每段的特征增強模塊中采用一種注意力機制來增加相關重要的權重。
將特征增強層輸入到分類模塊,分類模塊將得到的表示作為輸入,并輸出預定義標簽集的分數,得到每段視頻的分類結果。
融合K段中的K個結果,最終得到整個視頻的分類結果。
其中,所述LSTM循環神經網絡部分包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010006568.X/2.html,轉載請聲明來源鉆瓜專利網。





