[發明專利]一種基于深度空時特征學習的視頻行為聚類方法有效
| 申請號: | 202010529962.1 | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN111680644B | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 彭勃;雷建軍;賈亞龍 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/762;G06V10/82;G06V10/74 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 特征 學習 視頻 行為 方法 | ||
1.一種基于深度空時特征學習的視頻行為聚類方法,其特征在于,所述方法包括以下步驟:
構建3D U-Net自表達生成器網絡,用于學習視頻塊的空時特征表示以及聚類友好的子空間表達矩陣;
構建視頻塊重建判別器網絡,采用對抗學習機制評估重建視頻塊質量,以獲得更具辨析力的視頻空時特征表示;
設計聚類信息反饋機制,用于捕獲已有聚類結果中的信息增益,并反饋所述信息增益用于監督視頻行為聚類網絡的學習過程,提高聚類性能;
利用視頻塊重建判別器預訓練3D U-Net自表達生成器中的編碼器網絡和解碼器網絡,以使得編碼器網絡有效獲取視頻塊的空時特征;
通過訓練優化視頻行為聚類網絡的權重參數,獲得聚類友好的特征表示和重建系數矩陣,該訓練過程中參數優化與聚類過程交替進行,并反饋已有聚類結果以進一步指導視頻行為聚類網絡的學習;
所述3D U-Net自表達生成器包括:3D U-Net網絡模塊、自表達子空間模塊、以及分類模塊;
所述3D U-Net網絡模塊包括:3D編碼器網絡和3D解碼器網絡,所述3D編碼器網絡利用M層3D卷積操作提取所述視頻塊的空時特征表示,所述3D解碼器網絡利用M層3D反卷積操作基于空時特征重建視頻塊數據,所述3D編碼器網絡與所述3D解碼器網絡結構對稱,并采用跳連接方式將3D編碼器網絡生成的特征圖與對稱的解碼器網絡的特征圖沿通道維級聯;
所述自表達子空間模塊用于建模輸入視頻塊間的自表達子空間特性,其以各視頻塊的空時特征作為字典,通過視頻塊數據特征間的相互表達重建各視頻塊數據特征,獲得各視頻塊的自表達子空間特征表示以及重建系數矩陣;
所述聚類信息反饋機制具體為:
(1)基于所述自表達子空間模塊的參數矩陣計算視頻塊數據的相似度矩陣,基于所述相似度矩陣求解各視頻塊的譜嵌入表達,并獲得聚類結果;
(2)按照迭代閾值更新聚類偽標簽,每次迭代計算并排序每個譜嵌入表達與其對應聚類中心間的距離,距離聚類中心較遠的數據樣本的標簽被累積更新,直到達到迭代閾值停止,基于標簽統計直方圖獲得新的聚類偽標簽;
(3)選擇距離聚類中心距離小的前閾值樣本參與更新視頻行為聚類網絡的參數,以獲得相對可靠的聚類監督信息。
2.根據權利要求1所述的一種基于深度空時特征學習的視頻行為聚類方法,其特征在于,所述分類模塊利用全連接層將3D編碼器網絡輸出的空時特征表示映射為k維向量,所述k維向量對應于k個聚類子集,用于指示各數據樣本和k個聚類子集之間的從屬關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010529962.1/1.html,轉載請聲明來源鉆瓜專利網。





