[發明專利]一種基于語義一致性的半監督短視頻分類方法在審
| 申請號: | 202310086713.3 | 申請日: | 2023-02-09 |
| 公開(公告)號: | CN116340569A | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 呂衛;胡俊杰;褚晶輝 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/75 | 分類號: | G06F16/75;G06F16/783;G06F16/78;G06N3/08;G06N3/0464 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 一致性 監督 視頻 分類 方法 | ||
1.一種基于語義一致性的半監督短視頻分類方法,其特征在于,所述方法包括:
利用視頻鄰近幀相關性,將有標簽數據和無標簽數據分別以t0,t0+τ幀為起點按等時間間隔T抽取關鍵幀得到兩個幀序列,并分別做強數據增強、標準數據增強;
搭建由空間特征學習模塊、時間注意力融合模塊、分類器模塊組成的神經網絡;
標準數據增強后的有標簽樣本和無標簽樣本取相同數量拼接后輸入神經網絡并計算有標簽部分的分類損失;將強數據增強后的有標簽樣本和無標簽樣本取相同數量拼接后輸入神經網絡,得到預測輸出,對同一樣本這兩種不同數據增強處理后輸入網絡得到的預測分布計算一致性損失;
將分類損失和一致性損失聯合用于神經網絡的優化訓練;將視頻樣本輸入優化后的神經網絡輸出相應預測分數,得到最終視頻分類結果。
2.根據權利要求1所述的一種基于語義一致性的半監督短視頻分類方法,其特征在于,所述搭建由空間特征學習模塊、時間注意力融合模塊、分類器模塊組成的神經網絡為:
空間特征學習模塊使用殘差網絡進行空間特征編碼,將視頻幀空間特征序列輸入至時間注意力融合模塊;
時間注意力融合模塊在學習到的視頻幀空間特征序列中拼接位置信息編碼用于每個關鍵幀時間關系的學習,同時加入類別信息編碼用于對整個序列的時間上的語義信息融合;
學習序列內關鍵幀之間的相關性程度,計算序列內每個視頻幀對該序列所有視頻幀的關聯性矩陣,得到具有全局注意力信息的幀特征序列;
使用幀特征序列求均值融合視頻幀信息,得到視頻級語義表征,使用語義特征聯合學習到的類別編碼信息一同輸入由全連接層組成的分類器模塊,輸出最終分類結果。
3.根據權利要求1所述的一種基于語義一致性的半監督短視頻分類方法,其特征在于,所述分別做強數據增強、標準數據增強為:
將所有視頻樣本以t0,t0+τ為起始,等時間間隔T抽取N幀,得到每個樣本兩個關鍵幀序列集合和
其中,Fi為視頻樣本第i幀圖像,對于Xw中圖像做相同的標準數據增強操作,對Xs使用RandAugment算法做多次強數據增強操作。
4.根據權利要求3所述的一種基于語義一致性的半監督短視頻分類方法,其特征在于,所述加入類別信息編碼用于對整個序列的時間上的語義信息融合為:
將樣本Xm輸入殘差網絡f(·)學習每一幀空間外觀特征,得到視頻特征矩陣n為幀數,d為網絡f(·)輸出特征維度;
在視頻特征矩陣第一維度位置拼接一個隨機初始化的類別信息編碼位得到代表視頻的特征矩陣再加上隨機初始化的位置編碼信息得到最終的特征矩陣。
5.根據權利要求1所述的一種基于語義一致性的半監督短視頻分類方法,其特征在于,所述分類損失為:
將標準數據增強后的有標簽樣本和無標簽樣本取相同數量拼接后輸入神經網絡,神經網絡輸出預測分布并得到結果,使用交叉熵計算有標簽部分預測結果與實際標簽之間的誤差損失Lcls。
6.根據權利要求5所述的一種基于語義一致性的半監督短視頻分類方法,其特征在于,所述一致性損失為:使用JS散度計算網絡對同一樣本在兩次不同數據增強處理后的預測分布之間的一致性損失Lcons;
其中,KL表示KL散度,計算方式如下:
最終兩個損失聯合用于網絡的訓練優化,總的損失如下:
L=Lcls+λ·lcons
其中,λ為可調節參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310086713.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子設備
- 下一篇:一種富含晶界缺陷的Ni納米顆粒及其制備方法和應用





