[發明專利]一種視頻行為時間軸定位及候選框提取的方法有效
| 申請號: | 201810607040.0 | 申請日: | 2018-06-13 |
| 公開(公告)號: | CN108898076B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 李革;張濤;李楠楠;黃靖佳;鐘家興;李宏 | 申請(專利權)人: | 北京大學深圳研究生院 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京京萬通知識產權代理有限公司 11440 | 代理人: | 萬學堂;魏振華 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 行為 時間 定位 候選 提取 方法 | ||
1.一種視頻行為時間軸候選框提取方法,其特征在于:該方法的步驟如下:
1)在視頻行為時間軸定位任務上建立馬爾科夫決策過程;
2)利用視頻行為分類深度模型C3D進行特征提取,將深度模型中每一層卷積層產生的特征圖均存儲在內存中;
3)將深度特征與過去執行的四個動作對應的決策向量連接,形成融合了當前窗口視頻信息和歷史動作的決策向量;
4)采用經典的深度增強學習算法DQN,將決策向量輸入DQN中,訓練其求解馬爾科夫決策過程,學習一種根據當前時間軸窗口特征自動調整窗口位置和長度的方法;
5)利用訓練出的DQN,在初始化窗口的基礎上,自動地連續地對窗口的位置和長度進行調整,使其準確地靠近視頻內的人類動作片段;
6)訓練一個動作/背景二分類器判斷窗口下的視頻片段是否包含人類行為,從而進行視頻內人類行為片段的搜索和定位,由此達到視頻行為時間軸定位和候選框提取的目的。
2.如權利要求1所述的視頻行為時間軸候選框提取方法,其特征是,所述視頻行為分類深度模型具有8層卷積層的C3D深度卷積網絡模型;該C3D深度卷積網絡通過3D的卷積和池化操作提取視頻的時空信息;使用在Sports1M數據集上預訓練好的C3D網絡提取視頻的時空特征,使用C3D網絡的第一個全連接層fc-6層輸出的動作向量作為視頻特征向量,其長度為1024。
3.如權利要求2所述的視頻行為時間軸候選框提取方法,其特征是,在視頻行為時間軸定位上建立馬爾科夫模型,其動作集A包含六種對時間軸窗口的動作,分別是左移”,“右移”,“跳躍”,“左側延長”,“右側延長”,“縮短”。
4.如權利要求2所述的視頻行為時間軸候選框提取方法,其特征是,將過去執行的四個動作對應的決策向量與所述的C3D網絡的fc-6層特征連接,形成融合了當前窗口視頻信息和歷史動作的特征向量F。
5.如權利要求1所述的視頻行為時間軸候選框提取方法,其特征是,所述的求解馬爾科夫決策過程的DQN算法由三個全聯接的神經網絡組成;DQN使用卷積神經網絡來提取圖片特征,將特征輸入全連接層,使用全連接神經網絡求解馬爾科夫決策過程;DQN的輸出為動作向量,融合網絡選取概率最大的動作執行;使用C3D網絡的fc-6層輸出的特征向量作為視頻特征向量,融合網絡過去執行的4個歷史動作向量,作為輸入DQN決策向量;該DQN輸出的向量長度為6,對應6種對時間軸窗口的操作。
6.如權利要求2所述的視頻行為時間軸候選框提取方法,其特征是,使用一個動作/背景二分類器判斷窗口下的視頻片段是否包含人類行為。
7.如權利要求6所述的視頻行為時間軸候選框提取方法,其特征是,若窗口被動作/背景二分類器判定為包含人類行為,則將其記錄為候選框,并將窗口的位置更新到當前窗口的最右側。
8.如權利要求7所述的視頻行為時間軸候選框提取方法,其特征是,若窗口被動作/背景二分類器判定不包括人類行為,則將特征向量F輸入DQN網絡中,選擇概率最大的動作,對當前窗口執行該動作,更新其位置和長度。
9.如權利要求8所述的視頻行為時間軸候選框提取方法,其特征是,更新窗口的位置和長度時,使用固定的比例0.2進行更新。
10.如權利要求9所述的視頻行為時間軸候選框提取方法,其特征是,當窗口到達視頻尾部5次時,則認為對該視頻內的行為的定位已經完成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學深圳研究生院,未經北京大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810607040.0/1.html,轉載請聲明來源鉆瓜專利網。





