[發明專利]一種基于時序類別激活圖互補的弱監督視頻行為檢測方法有效
| 申請號: | 201910630472.8 | 申請日: | 2019-07-12 |
| 公開(公告)號: | CN110516536B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 俞俊;朱素果;方振影;曾煥濱 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/82;G06N3/04 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時序 類別 激活 互補 監督 視頻 行為 檢測 方法 | ||
1.一種基于時序類別激活圖互補的弱監督視頻行為檢測方法,其特征在于:
首先給定視頻數據v,視頻數據v中出現的行為類別a,構成二元組v,a作為訓練集,具體實現步驟如下:
步驟(1)、數據預處理:對視頻數據v使用現有的經典的抽取視頻時空特征的網絡結構提取時空特征;
視頻數據v預處理:
首先抽取所有視頻數據v對應的圖像幀和光流;其次使用預訓練的特征提取網絡分別提取圖像幀和光流所對應的特征;
行為類別a預處理:
每個視頻可能包含多個類別,假設有n個類別,首先將視頻中出現的行為類別轉換成答案字典中的索引值,最后轉換為一個n維編碼的答案向量;
步驟(2)、特征嵌入模塊
基于預訓練模型,增加特征嵌入模塊,使得視頻特征對于弱監督視頻行為檢測任務更加有效;
步驟(3)、在線生成時序類別激活圖模塊
首先將嵌入后得到的視頻特征經過注意力網絡,得到每個視頻特征對應的全部類別的重要度;將每個視頻特征的重要度與嵌入后得到的視頻特征對應相乘得到重要度特征I,然后根據重要度特征I及分類結果生成對應每一個分類類別的時序類別激活圖I;
步驟(4)、時序類別激活圖互補網絡
將時序類別激活圖I中大于設定閾值的區域,在嵌入后得到的視頻特征中做擦除操作,獲得擦除后的視頻特征;將擦除后的視頻特征經過注意力網絡,再次得到每個視頻特征對應的全部類別的重要度;將每個視頻特征的重要度與擦除后的視頻特征對應相乘得到重要度特征II,然后根據重要度特征II及分類結果生成對應每一個分類類別的時序類別激活圖II;
步驟(5)、生成檢測結果
將得到的時序類激活圖I和時序類激活圖II合并,然后使用閾值法得到檢測結果;
步驟(6)、模型訓練
根據產生的分類預測值同該視頻的實際動作標簽的差異,并利用反向傳播算法(Back-Propagation,BP)對上述定義的神經網絡的模型參數進行訓練,直至整個網絡模型收斂;
所述的分類預測值指步驟(3)和步驟(4)各自的分類器產生的分類結果;
步驟(1)具體實現如下:
1-1.對視頻數據v以25FPS抽取圖像幀,同時使用TVL-1算法抽取視頻的光流;對于抽取好的圖像幀和光流,使用基于Kinetics數據集預訓練的I3D模型,無重疊的每16幀抽取圖像幀和光流對應的1024維度的特征,最終得到視頻特征vf,其中T是視頻使用無重疊每16幀抽取特征得到的片段數,1024是每個片段得到的特征維度;
1-2.對于行為類別a,直接將類別替換成答案字典中的索引ai,然后將答案轉化成一個n維且只在ai元素上值為1,其余元素全為0的答案向量ans,其中n是數據集中總的行為類別的個數;
步驟(2)具體如下:
由I3D網絡提取的原始視頻特征vf經過帶有整形流線單元激活函數的通道數為512的1×1卷積之后,得到T×512維度的特征I;將特征I經過一個跟上述相同的網絡將此特征轉化為另一個T×512維度的特征II;對特征II使用帶有整形流線單元激活函數,通道數為1024的1×1卷積之后,得到一個新的T×1024維度的特征III,將此特征III與原始視頻特征vf相加,得到嵌入后的特征venb,此特征維度為T×1024,;具體公式如下:
vemb=vf+ReLU(conv3(ReLU(conv2(ReLU(conv1(vf)))))) (1)
其中conv1,conv2,conv3分別是通道數為512、512、1024的1×1卷積;
步驟(3)所述的在線生成時序類別激活圖模塊,具體如下:
3-1.在訓練過程中將嵌入特征vemb和注意力權重aemb相乘得到注意力特征vatt:
vatt=vemb×aemb (2)
其中,由注意力網絡得出,T為視頻的片段個數;
3-2.使用1×1的卷積將原來的1024維特征轉換成n維特征,此時卷積之后的每個特征圖對應了每個類別的時序激活圖;因此能夠在線地在訓練分類網絡的過程中得到對應分類類別的時序類別激活圖I;公式如下:
vact=convact(vatt) (3)
其中,convact是輸出通道數為n的1×1卷積;
步驟(4)所述的時序類別激活圖互補網絡具體如下:
將時序類別激活圖Iυact,經過sigmoid函數得到vsig:
vsig=Sigmoid(vact) (4)
然后以閾值法得到第一個分支關注度比較高的片段,在vemb中將這些關注度υsig大于設定閾值的片段的特征置為0,獲得擦除后的視頻特征υera-emb;將視頻特征υera-emb再次經過步驟3-1和3-2的操作,得到新的對應分類類別的時序類別激活圖II;
步驟(5)所述的生成檢測結果,具體如下:
根據得到的對應分類類別的時序類別激活圖I和時序類別激活圖II,取對應位置的最大值進行合并,得到最終的時序類別激活圖;
對于步驟(3)中得到的分類結果,將分類得分大于0.1的所有類別視為該視頻包含的行為類別,在這些行為類別的時序激活圖上,將υsig的值大于0.5的片段作為檢測結果;
步驟(6)所述的訓練模型,具體如下:
將步驟(3)和步驟(4)兩個分支的時序類別激活圖各自對每個特征圖求和,得到1×n的向量,經過sigmoid函數即可得到該分支的預測值,兩個分支經過sigmoid函數之后分別記為:pred1,pred2;將pred1,pred2分別與步驟(1)中產生的答案向量ans輸入到定義的損失函數BCELoss中,然后兩者相加得到損失值loss,具體公式如下:
loss=BCELoss(pred1,ans)+BCELoss(pred2,ans) (5)
其中BCELoss公式如下:
BCELoss=ans·log(pred)+(1-ans)·log(1-pred) (6)
根據計算得到的損失值loss,利用反向傳播算法調整網絡中的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910630472.8/1.html,轉載請聲明來源鉆瓜專利網。





