[發明專利]一種基于動作連貫性的弱監督時序動作定位方法有效
| 申請號: | 201910575033.1 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110348345B | 公開(公告)日: | 2021-08-13 |
| 發明(設計)人: | 王樂;翟元浩;劉子熠 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 安彥彥 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動作 連貫性 監督 時序 定位 方法 | ||
1.一種基于動作連貫性的弱監督時序動作定位方法,其特征在于,包括以下步驟:
步驟1,將待處理視頻分為多個不重合片段,獲取每個片段的RGB特征和光流特征;
步驟2,對步驟1獲得的RGB特征和光流特征分別進行動作片段回歸處理,獲得RGB動作片段和光流動作片段;所述動作片段回歸處理包括:對于待處理視頻的每個時間點,枚舉不同預設長度的假想的動作片段,對于不同長度的動作片段使用預定的回歸神經網絡進行回歸,回歸神經網絡使用動作連貫性損失函數進行訓練,并獲得動作片段;
步驟3,通過動作連貫性損失函數評價步驟2得到的RGB動作片段和光流動作片段的置信程度;使用非最大值抑制過濾掉重合度超過閾值的動作片段;
步驟4,回歸神經網絡訓練結束后;經過一個無參數的融合模塊,篩選融合RGB動作片段和光流動作片段,得到最后的定位結果;
其中,步驟2中,動作片段回歸處理具體包括:對于片段長度為P的動作片段,使用下式進行回歸:
式中,xs為開始邊界的序號,xe為結束邊界的序號,為在開始邊界位置回歸的結果,為在結束邊界位置回歸的結果;
步驟2和步驟3中,動作連貫性損失函數由兩部分組成;
一部分用來表征動作片段特征與其上下文特征的余弦相似度;假設該動作片段與其上下文的特征分別用如下符號表示其中,F(u)為視頻在時間點為u的特征,這部分的計算表達式為:
另一部分用分類置信度來表征:
其中,S(k,u)表示在類別k下,時間點u的分類置信度;對于動作片段[xs,xe],將其擴充到[Xs,Xe],其中作為該片段的上下文信息;
動作連貫性損失函數的表達式為:
L=αLc+(1-α)(La-1)
其中,α為超參數,取值為0<α<1。
2.根據權利要求1所述的一種基于動作連貫性的弱監督時序動作定位方法,其特征在于,步驟1具體包括:將待處理視頻分為多個不重合片段;對每個片段平均取樣,使用卷積神經網絡提取取樣幀的特征,將提取獲得的特征作為該片段的表示;其中,分別對RGB和光流提取特征。
3.根據權利要求1所述的一種基于動作連貫性的弱監督時序動作定位方法,其特征在于,步驟4中,回歸網絡訓練結束后,對于RGB和光流分別得到的動作片段,篩選融合步驟具體包括:
由RGB和光流得到的動作片段分別為其中,Nr和Nf分別為RGB和光流動作片段數;
對于每個RGB的動作片段,計算其與光流片段的最大IoU,計算公式為:
最終的篩選融合結果,為所有光流動作片段和具有I(pr,j)小于預設閾值的RGB動作片段的組合。
4.根據權利要求3所述的一種基于動作連貫性的弱監督時序動作定位方法,其特征在于,最終的篩選融合結果,為所有光流動作片段和具有I(pr,j)0.4的RGB動作片段的組合。
5.根據權利要求1所述的一種基于動作連貫性的弱監督時序動作定位方法,其特征在于,α設置為0.6。
6.根據權利要求1所述的一種基于動作連貫性的弱監督時序動作定位方法,其特征在于,步驟2中,將步驟1得到的RGB特征Rs輸入到多個回歸網絡;每個回歸網絡由3層1D卷積神經網絡構成,并指定了一個片段長度P;
回歸網絡的最后一層有2個大小為1的卷積核,其輸出分別回歸開始邊界和結束邊界。
7.根據權利要求6所述的一種基于動作連貫性的弱監督時序動作定位方法,其特征在于,回歸網絡的前兩層由空洞卷積網絡構成。
8.根據權利要求7所述的一種基于動作連貫性的弱監督時序動作定位方法,其特征在于,回歸網絡的前兩層的空洞卷積的空洞設置為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910575033.1/1.html,轉載請聲明來源鉆瓜專利網。





