[發明專利]一種基于層次類別模型的弱監督時序行為定位方法有效
| 申請號: | 202110315302.8 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN113221633B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 王楠楠;李國璋;高新波;李潔;程德;朱明瑞;丁鑫棚 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/762;G06V10/774;G06V20/40;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 西安嘉思特知識產權代理事務所(普通合伙) 61230 | 代理人: | 劉長春 |
| 地址: | 710000 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 層次 類別 模型 監督 時序 行為 定位 方法 | ||
1.一種基于層次類別模型的弱監督時序行為定位方法,其特征在于,包括:
S1:獲取包括多個視頻的訓練數據集,其中,每個視頻中包括已標注的行為類別標簽;
S2:利用經訓練的深度3D卷積神經網絡獲得所述視頻的視頻特征;
S3:對所述視頻特征進行層次聚類,獲取所述視頻的多層次類別;
S4:利用所述訓練數據集中多個視頻的多層次類別訓練由多個分類模塊構成的深度神經網絡模型,獲得經訓練的所述深度神經網絡模型;
S5:利用所述經訓練的預測網絡對待定位視頻進行預測,獲得所述待定位視頻中的行為片段
所述S3包括:
S31:將所述視頻中的已標注的原始行為類別定義為第一層次的視頻類別標簽C(1);
S32:對包括同一行為類別的視頻特征取均值,獲取第c類別的視頻特征Xc:
其中,Nc為所述訓練數據集中具有第c類別的視頻的數量,Xc,n為具有第c類別的第n個視頻的視頻特征;
S33:計算每兩個不同類別的視頻特征之間的距離并將距離最近的兩個類別的視頻特征合為一個類別;
S34:重復步驟S33,直到剩余類別的數量達到預定的C2個類別為止,所述C2個類別組成第二層次的視頻超類標簽C(2);
S35:利用所述第二層次的視頻超類標簽C(2),循環重復步驟S32至步驟S34,直至獲取第K層次視頻超類標簽C(K),
所述S4包括:
S41:對所述多層次類別中的K個層次類別分別構造一個分類模塊;
S42:利用所述分類模塊獲得所述K個層次類別的對應時間類激活序列;
S43:利用隨機梯度下降算法,根據所述時間類激活序列及所有K個層次的超類標簽對所述深度神經網絡模型中的分類模塊進行訓練,其中,總損失函數為:
Loss=∑K(Lcls+Lsupp)
其中,Lcls為分類損失函數,Lsupp為背景抑制損失函數;
S44:當判定所述總損失函數最小時,所述深度神經網絡模型訓練完成。
2.根據權利要求1所述的基于層次類別模型的弱監督時序行為定位方法,其特征在于,所述S2包括:
S21:將所述視頻平均劃分為多個視頻片段,利用光流估計算法獲得每個視頻片段的光流幀;
S22:從每個視頻片段中分別任選一幀作為當前視頻片段的RGB幀;
S23:將所述光流幀和所述RGB幀輸入經訓練的深度3D卷積神經網絡中,提取所述視頻的RGB特征部分與光流特征部分;
S24:將所述視頻的RGB特征部分和光流特征部分進行拼接,獲得所述視頻的視頻特征。
3.根據權利要求2所述的基于層次類別模型的弱監督時序行為定位方法,其特征在于,所述S24包括:
將每個視頻的RGB特征部分與光流特征部分進行拼接,獲得每個視頻的視頻特征X=[Xf;Xr],其中,為所述視頻的RGB特征部分,為所述視頻的第t個視頻片段的RGB特征部分,為所述視頻的光流特征部分,為所述視頻的第t個視頻片段的光流特征部分。
4.根據權利要求3所述的基于層次類別模型的弱監督時序行為定位方法,其特征在于,每個所述分類模塊均包括特征嵌入模塊、以及并列連接在所述特征嵌入模塊之后的注意力模塊和分類層,其中,所述特征嵌入模塊由一維時間卷積模塊構成;所述注意力模塊包括兩個全連接層和位于所述全連接層之后的Sigmoid函數層;所述分類層包括一層時間卷積模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110315302.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種觸動式智能發音器
- 下一篇:一種瀝青混凝土再生料回收系統及回收方法





