[發明專利]一種基于雙模態協同的弱監督時序動作定位方法及系統有效
| 申請號: | 202010614973.X | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111914644B | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 王樂;翟元浩;鄭南寧 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 李紅霖 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙模 協同 監督 時序 動作 定位 方法 系統 | ||
1.一種基于雙模態協同的弱監督時序動作定位方法,其特征在于,包括以下步驟:
步驟1,未剪輯視頻中的視頻片段特征提取,包括:將未剪輯視頻分為多個不重合視頻片段;對每個視頻片段的幀進行平均取樣,獲得每個視頻片段的樣本幀;使用預訓練的卷積神經網絡提取所述樣本幀的片段特征作為樣本幀對應視頻片段的表示;所述片段特征包括:RGB特征和光流特征;
步驟2,搭建雙流基礎網絡;基于所述雙流基礎網絡對未剪輯視頻進行動作分類,獲得視頻片段注意力權重序列和動作分類結果;其中,所述雙流基礎網絡包括:兩個結構相同的單模態子網絡,分別用于輸入RGB特征和光流特征并進行處理;
步驟3,基于步驟2獲得的視頻片段注意力權重序列,獲得偽時序標簽;將偽時序標簽作為時序監督,訓練兩個單模態子網絡,迭代直至最終擬合;
步驟4,基于步驟3迭代訓練獲得的兩個單模態子網絡,對未剪輯視頻進行時序動作定位,包括:在步驟2獲得的動作分類結果上進行遍歷;其中,對于每一個動作分類,進行的步驟包括:對視頻片段注意力權重序列進行閾值劃分;將高于閾值的相鄰視頻片段進行連接,產生動作提議;其中,所述動作提議的置信度分數由分類層對每個片段特征的映射得到。
2.根據權利要求1所述的一種基于雙模態協同的弱監督時序動作定位方法,其特征在于,步驟2中,每個單模態子網絡均包括:
時序卷積層,用于輸入每個視頻片段的片段特征,將片段特征映射到用于分類的特征空間,輸出用于分類的片段特征;
注意力預測層,包括:一層卷積層;用于輸入時序卷積層輸出的用于分類的片段特征,對每個片段特征輸出一個注意力權重,用于衡量該視頻片段包含動作的可能性;
按照時間順序,將所有片段特征的注意力權重組成視頻片段注意力權重序列;
分類層,包括:一層卷積層;用于根據注意力預測層輸出的注意力權重對所有用于分類的片段特征進行加權平均,得到未剪輯視頻的特征表示;將特征表示送入分類層,得到視頻類別預測獲得動作分類結果。
3.根據權利要求2所述的一種基于雙模態協同的弱監督時序動作定位方法,其特征在于,步驟2中,注意力預測層輸出的第i個視頻片段的注意力值Ai的表達式為:
Ai=σ(wA·xi+bA);
式中,wA、bA為卷積層的權重的偏置;xi是第i個視頻片段的特征;σ(·)是Sigmoid函數;
使用注意力值Ai對用于分類的片段特征加權平均得到視頻特征表示xfg的表達式為:
以xfg為輸入,訓練一層全連接層,得到動作分類結果;
分類預測的表達式為:
式中,wi和bi為分類卷積層對類別i的權重和偏置,C為所有動作類別數;Wc和bc是分類卷積層對于類別c的權重和偏置。
4.根據權利要求3所述的一種基于雙模態協同的弱監督時序動作定位方法,其特征在于,步驟2中,雙流基礎網絡的損失函數表達式為:
Lbase=Lcls+αLatt;
式中,α為控制Latt相對重要性的超參數;
交叉熵損失函數Lcls表達式為:
式中,yc為真實類別標簽;
注意力正則化損失函數的表達式為:
式中,T是視頻片段總個數,s是控制片段選擇片段的超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010614973.X/1.html,轉載請聲明來源鉆瓜專利網。





