[發(fā)明專利]一種基于語義一致性的半監(jiān)督短視頻分類方法在審
| 申請?zhí)枺?/td> | 202310086713.3 | 申請日: | 2023-02-09 |
| 公開(公告)號: | CN116340569A | 公開(公告)日: | 2023-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 呂衛(wèi);胡俊杰;褚晶輝 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06F16/75 | 分類號: | G06F16/75;G06F16/783;G06F16/78;G06N3/08;G06N3/0464 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 一致性 監(jiān)督 視頻 分類 方法 | ||
本發(fā)明公開了一種基于語義一致性的半監(jiān)督短視頻分類方法,包括:利用視頻鄰近幀相關(guān)性,將有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)分別以tsubgt;0/subgt;,tsubgt;0/subgt;+τ幀為起點(diǎn)按等時(shí)間間隔T抽取關(guān)鍵幀得到兩個(gè)幀序列,并分別做強(qiáng)數(shù)據(jù)增強(qiáng)、標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng);搭建由空間特征學(xué)習(xí)模塊、時(shí)間注意力融合模塊、分類器模塊組成的神經(jīng)網(wǎng)絡(luò);標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)后的有標(biāo)簽樣本和無標(biāo)簽樣本取相同數(shù)量拼接后輸入神經(jīng)網(wǎng)絡(luò)并計(jì)算有標(biāo)簽部分的分類損失;將強(qiáng)數(shù)據(jù)增強(qiáng)后的有標(biāo)簽樣本和無標(biāo)簽樣本取相同數(shù)量拼接后輸入神經(jīng)網(wǎng)絡(luò),得到預(yù)測輸出,對同一樣本這兩種不同數(shù)據(jù)增強(qiáng)處理后輸入網(wǎng)絡(luò)得到的預(yù)測分布計(jì)算一致性損失;將分類損失和一致性損失聯(lián)合用于神經(jīng)網(wǎng)絡(luò)的優(yōu)化訓(xùn)練;將視頻樣本輸入優(yōu)化后的神經(jīng)網(wǎng)絡(luò)輸出相應(yīng)預(yù)測分?jǐn)?shù),得到最終視頻分類結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及短視頻動作、事件分類領(lǐng)域,尤其涉及一種基于語義一致性的半監(jiān)督短視頻分類方法。
背景技術(shù)
隨著移動智能設(shè)備普及和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,短視頻逐漸取代傳統(tǒng)圖文成為人們?nèi)粘I钪兄匾男畔⑤d體。這些短視頻本身相比傳統(tǒng)視頻,具有時(shí)長短、內(nèi)容復(fù)雜多樣、信息碎片化等特點(diǎn)。短視頻動作分類作為視頻內(nèi)容理解的子任務(wù)之一,主要解決短視頻中人物動作的理解與建模,是視頻復(fù)雜事件理解的基礎(chǔ),相關(guān)表示學(xué)習(xí)也在視頻分類推薦、版權(quán)保護(hù)、內(nèi)容審查等下游應(yīng)用中有重要作用。近年來,得益于計(jì)算設(shè)備性能不斷提高,人工智能相關(guān)技術(shù)快速發(fā)展落地,深度學(xué)習(xí)在視頻內(nèi)容理解領(lǐng)域得到了廣泛應(yīng)用。一些深度算法逐漸代替了傳統(tǒng)機(jī)器學(xué)習(xí),能夠?qū)W習(xí)到視頻更加完備的深度表征,具體表現(xiàn)也更加出色。然而深度學(xué)習(xí)大多數(shù)方法的訓(xùn)練需要大量標(biāo)簽,而數(shù)量龐大的視頻標(biāo)注需要大量的人工成本,因此只需要少量標(biāo)簽就可以進(jìn)行訓(xùn)練的半監(jiān)督學(xué)習(xí)具有重要現(xiàn)實(shí)意義。
在視頻分析上,深度方法主要分為三類,基于雙流網(wǎng)絡(luò)的方法、基于3D卷積神經(jīng)網(wǎng)絡(luò)的方法、基于2D卷積神經(jīng)網(wǎng)絡(luò)的方法。基于光流網(wǎng)絡(luò)的方法主要通過提取視頻光流特征學(xué)習(xí)時(shí)間維度信息。基于3D卷積網(wǎng)絡(luò)的方法則直接在時(shí)間維度擴(kuò)展卷積核,通過卷積同步學(xué)習(xí)時(shí)空信息。基于2D卷積網(wǎng)絡(luò)的方法使用二維卷積學(xué)習(xí)視頻幀空間特征,之后通過對視頻幀進(jìn)行時(shí)序建模,挖掘時(shí)間維度信息。前兩類方法雖然取得了較好的效果,但光流的計(jì)算以及三維網(wǎng)絡(luò)的計(jì)算和訓(xùn)練需要巨大的成本;基于二維卷積網(wǎng)絡(luò)提取關(guān)鍵幀特征的方法則需要更多的考慮時(shí)間維度信息的交互與融合。
目前的半監(jiān)督學(xué)習(xí)研究主要集中在圖像領(lǐng)域,視頻領(lǐng)域?qū)嶋H研究較少。主流的半監(jiān)督學(xué)習(xí)算法主要分為兩種,基于偽標(biāo)簽的方法和基于一致性正則化的方法。基于偽標(biāo)簽的方法致力于提高生成偽標(biāo)簽的置信度,而基于正則化的方法則通過擾動優(yōu)化學(xué)習(xí)促使決策邊界設(shè)定在低密度區(qū)域。圖像上的半監(jiān)督算法主要挖掘同一圖片在不同樣本增強(qiáng)擾動下模型預(yù)測的不變性,而視頻本身由大量視頻幀構(gòu)成,視頻幀之間具有高度的語義相關(guān)性和相互作用,挖掘視頻內(nèi)部監(jiān)督信號是視頻上的半監(jiān)督學(xué)習(xí)發(fā)展方向。
盡管這些現(xiàn)有方法在視頻分類上取得了不錯(cuò)的成效,但視頻半監(jiān)督學(xué)習(xí)仍處于發(fā)展階段。因此提出一種基于半監(jiān)督學(xué)習(xí)的短視頻學(xué)習(xí)方法,深度挖掘利用視頻內(nèi)幀間語義一致性信息,同時(shí)在視頻幀間進(jìn)行充分的信息交互融合提取高階語義信息進(jìn)行分類是有意義的。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于語義一致性的半監(jiān)督短視頻分類方法,本發(fā)明輸入的視頻通過二維殘差網(wǎng)絡(luò)學(xué)習(xí)視頻幀空間特征,并利用注意力機(jī)制在時(shí)間維度學(xué)習(xí)每個(gè)視頻幀對于該視頻的重要程度,從而獲得視頻級高級語義信息;通過引入半監(jiān)督學(xué)習(xí),利用短視頻鄰近幀相似性特點(diǎn),構(gòu)造同一短視頻兩個(gè)關(guān)鍵幀序列對,在學(xué)習(xí)有標(biāo)簽樣本的監(jiān)督信號的同時(shí)對使用兩種不同強(qiáng)度數(shù)據(jù)增強(qiáng)后的這兩個(gè)幀序列的網(wǎng)絡(luò)輸出預(yù)測分布進(jìn)行約束,使模型學(xué)習(xí)到更健壯的視頻級語義,提高在只有少量有標(biāo)簽樣本情況下的分類精度,詳見下文描述:
一種基于語義一致性的半監(jiān)督短視頻分類方法,所述方法包括:
利用視頻鄰近幀相關(guān)性,將有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)分別以t0,t0+τ幀為起點(diǎn)按等時(shí)間間隔T抽取關(guān)鍵幀得到兩個(gè)幀序列,并分別做強(qiáng)數(shù)據(jù)增強(qiáng)、標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310086713.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級語義表征和語義計(jì)算的信號語義識別方法
- 語義分類方法及裝置、存儲介質(zhì)及電子設(shè)備
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





