[發明專利]一種視頻行為時間軸定位及候選框提取的方法有效
| 申請號: | 201810607040.0 | 申請日: | 2018-06-13 |
| 公開(公告)號: | CN108898076B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 李革;張濤;李楠楠;黃靖佳;鐘家興;李宏 | 申請(專利權)人: | 北京大學深圳研究生院 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京京萬通知識產權代理有限公司 11440 | 代理人: | 萬學堂;魏振華 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 行為 時間 定位 候選 提取 方法 | ||
一種視頻行為時間軸定位及候選框提取的方法,該方法是基于未裁剪視頻數據的、深度強化學習的視頻行為時間軸候選框提取方法,具體步驟是:首先,在視頻行為時間軸定位任務上建立了馬爾科夫模型,將視頻行為時間軸定位任務轉化為求解馬爾科夫決策過程;然后,使用經典的深度強化學習算法DQN來求解馬爾科夫決策過程,使得算法自動調整時間軸窗口的長度與位置;最后,使用訓練出來的智能體模型和一個動作/背景二分類器,來定位視頻中的人類行為,產生時間軸候選框,以供后續更精確的定位和分析。本發明在效率與效果上超越了目前大多數先進算法,可用于定位視頻中的人類行為。
技術領域
本發明涉及視頻分析技術領域,尤其涉及一種視頻行為時間軸定位及候選框提取的方法,該方法是基于對未裁剪視頻數據的、深度強化學習的視頻行為時間軸定位及候選框提取方法。
背景技術
包含人類行為的視頻可以分為兩類:一類是經過人工裁剪的、僅包含人類行為而不包含任何無關背景視頻的視頻;一類是拍攝后未經裁剪的視頻,該類視頻中不僅僅包括人類行為而且包含無關的背景片段,比如片頭,觀眾等。視頻行為時間軸檢測指在一段未經過人工裁剪的視頻中,定位出人類行為發生的起始時間與結束時間,并識別人類行為的類別。目前已有的視頻行為時間軸檢測方法主要遵循兩步策略:首先,提取大量的很可能包含人類動作視頻片段的時間軸候選框,然后對所提取的候選框進行位置和長度上的細微調整,并對定位到的行為進行分類。提取高質量的時間軸候選框對于精確地進行視頻行為檢測是非常關鍵的一個步驟。本發明主要針對視頻行為時間軸候選框提取這一任務,基于深度強化學習,高效地提取高質量的視頻行為時間軸候選框。此外,本發明也可直接用于粗略的視頻行為時間軸定位。
目前已有的視頻行為時間軸候選框提取方法主要有以下幾種:
一、基于滑動窗口的方法。這是目前最簡單的方法,通過人為設定不同長度的時間軸窗口,以設定好的步長在整個視頻上進行滑動,從而產生大量的視頻片段。然后使用動過/背景二分類器對產生的視頻片段進行二分類,將得到的前景片段記錄為時間軸候選框。滑動窗口方法的主要問題在于其計算效率很低,且產生的時間軸候選框的質量較差。
二、基于循環神經網絡的方法。這是在近年來深度學習再次興起后提出的方法,通過循環神經網絡,對長視頻序列進行建模,通過提取視頻內時序上的信息,搜索視頻中可能包含人類行為的視頻片段。這種方法具有較高的計算效率。但是已有的循環神經網絡難以處理視頻中巨大的信息量,因此提取的時間軸候選框的質量不高,即候選框與視頻內人類行為的重疊率不夠高,且漏檢的情況比較嚴重。
三、自底向上組合短視頻段的方法。這類方法將整段視頻分割為等長的小視頻段,并對每一個小視頻段進行動作/背景二分類,最后對前景視頻段進行組合,得到時間軸候選框。這種方法擁有較好的計算效率和較低的漏檢率,但是候選框的質量不夠高。因此,這種方法的效果還有較多的提升空間。
發明內容
為了克服上述現有技術在效率、候選框質量以及智能性上的不足,本發明提供了一種新的視頻行為時間軸定位及候選框提取方法,基于深度增強學習,實現高效的智能的視頻行為時間軸候選框的提取。本發明可以應用于視頻片段的提取,以此從長段的未經裁剪的視頻中得到人類感興趣的視頻段,以便進行后續的視頻分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學深圳研究生院,未經北京大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810607040.0/2.html,轉載請聲明來源鉆瓜專利網。





