[發明專利]一種基于移動未裁剪網絡的視頻行為識別方法有效
| 申請號: | 201910443353.1 | 申請日: | 2019-05-27 |
| 公開(公告)號: | CN110188654B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 李春國;徐煜耀;楊綠溪 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V20/52;G06V10/50;G06V10/764;G06N3/0464;G06N3/04 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 蔣昱 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 移動 裁剪 網絡 視頻 行為 識別 方法 | ||
一種基于移動未裁剪網絡的視頻行為識別方法,本發明在未裁剪網絡的基礎上,提出基于移動未裁剪網絡的視頻行為識別方法。本發明先對長時序未裁剪視頻進行基于鏡頭的采樣,再利用移動有效卷積網絡提取候選段的特征,然后通過分類模塊對其生成動作分類分數,接著利用選擇模塊針對某一動作類別對所有候選段進行排序,最后通過類激活序列相鄰分數比較法,選出動作最有可能存在的時序區域。本發明在THUMOS?2014數據集上的行為識別正確率達到了81.9%。另外,本發明在交并比閾值設為0.3的前提下,在此數據集上行為時序檢測的平均均值精度達到了28.3。另一方面,可以通過此發明實現為未裁剪的視頻數據集進行行為時序標定,進而提升標定效率。
技術領域
本發明涉及屬于計算機視覺與人工智能、多媒體信號處理領域,特別是涉及一種基于移動未裁剪網絡的視頻行為識別方法。
背景技術
目前,一些研究機構通過手工裁剪的方式制作了一些數據集,如THUMOS14和ActivityNet。這些數據集都是一些長視頻,但是均附有一個標注文件,來說明這個視頻中哪類動作起始時間與結束時間。雖然這些精確的時間注解可以緩解訓練網絡時的困難,但是這將很大程度上制約視頻行為識別算法在實際場景中的應用。這主要有以下幾個原因:首先,注釋每個動作實例的非常耗時;其次,微博、YouTube等視頻網站上的大量視頻一般不會對動作進行裁剪,在這樣的大規模數據中修剪視頻將是不切實際的;另外,更重要的是,對于動作邊界的定義很模糊,沒有關于動作的起止時間范圍的合理定義。因此,這些動作的時間標注是裁定人的主觀意識,在不同的人之間不一致,這將對網絡的訓練造成影響。
現實生活中的視頻往往是未經過裁剪的視頻,因此,如何克服未裁剪視頻的上述問題并將這些視頻數據整理成可用的數據集顯得尤為重要。對于視頻而言,對它進行視頻層面的類別標記是比較容易的。如何利用這些只進行了視頻層面類別標記但沒有進行行為裁剪的視頻,來幫助提升行為識別算法的適用性將顯得至關重要。由于這些視頻沒有具體的動作時間標記來幫助網絡進行訓練,因此稱這類任務是弱監督行為檢測(WeaklySupervised?Action?Detection,WSD)。所謂的行為檢測就是給視頻中的行為進行起止時間的標定,并給出行為的分類。然而,這種弱監督方式也帶來了新的挑戰,因為算法不僅需要學習每個動作類的視覺模式,而且還需要自動推理可能的動作實例的時間位置。因此在完成這類任務時,需要同時兼顧這兩個層面。Wang等人提出了一種新的端到端訓練的深度學習網絡——未裁剪網絡(UntrimmedNet)。在沒有動作實例的時間標注的情況下,UntrimmedNet可以直接將一個未裁剪的視頻作為輸入,僅僅利用它的視頻級標簽來學習網絡權重,讓網絡能夠實現對視頻中行為起止時間段的標定。
本發明在UntrimmedNet的基礎上,對其結構進行了改進,利用移動有效卷積網絡代替了UntrimmedNet中原來的視頻特征提取器,使網絡的訓練不那么耗時,這里記這種結構為移動未裁剪網絡(Mobile-Untrimmed-Net,MU-Net)。另外,本發明提出了一種分數相鄰比較法,運用于MU-Net中,使得時序段檢測精度得以上升。
發明內容
為了解決以上問題,本發明提供一種基于移動未裁剪網絡的視頻行為識別方法,為了有效利用長時序未裁剪視頻數據集,本發明在未裁剪網絡的基礎上,提出基于移動未裁剪網絡的視頻行為識別方法。本發明先對長時序未裁剪視頻進行基于鏡頭的采樣,再利用移動有效卷積網絡提取候選段的特征,然后通過分類模塊對其生成動作分類分數,接著利用選擇模塊針對某一動作類別對所有候選段進行排序,最后通過類激活序列相鄰分數比較法,選出動作最有可能存在的時序區域。本發明在THUMOS?2014數據集上的行為識別正確率達到了81.9%。另外,本發明在交并比閾值設為0.3的前提下,在此數據集上行為時序檢測的平均均值精度達到了28.3。另一方面,可以通過此發明實現為未裁剪的視頻數據集進行行為時序標定,進而提升標定效率,為達此目的,本發明提供一種基于移動未裁剪網絡的視頻行為識別方法,包括以下步驟:
(1)將輸入的視頻進行基于鏡頭的采樣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910443353.1/2.html,轉載請聲明來源鉆瓜專利網。





