[發明專利]一種基于外形-運動雙流信息融合的視頻行為檢測方法有效
| 申請號: | 201811298485.1 | 申請日: | 2018-11-02 |
| 公開(公告)號: | CN109376677B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 李楠楠;張世雄;張子堯;李革;安欣賞;張偉民 | 申請(專利權)人: | 深圳龍崗智能視聽研究院 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/764;G06V10/80;G06K9/62;G06N3/04 |
| 代理公司: | 北京京萬通知識產權代理有限公司 11440 | 代理人: | 萬學堂;魏振華 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 外形 運動 雙流 信息 融合 視頻 行為 檢測 方法 | ||
本發明公布了一種基于外形?運動雙流信息融合的視頻行為檢測方法。該方法使用深度網絡模型來提取外形和運動信息特征,構建卷積網絡將這兩部分特征進行深度的融合,在此基礎上進行單幀的視頻行為檢測;設計一種動態增量式的鏈接算法把對應于同一運動目標的單幀檢測結果鏈接成完整的行為軌跡。相比于當前的行為檢測算法,本發明提出的方法檢測精度高,在目前公布的測評數據集上,達到了領先的檢測水平;同時可以應用于未裁剪的視頻,在視頻中存在多個運動目標時,具有很高的檢測效率。
技術領域
本發明涉及視頻行為分析技術領域,具體涉及到一種基于外形-運動雙流信息融合的視頻行為檢測方法,該方法利用深度學習技術,通過空間域行為檢測和時間域行為路徑鏈接,來實現視頻行為分類和行為定位的目的。
背景技術
視頻行為檢測是計算機視覺領域長久以來的一個研究熱點,近年來得到了越來越多的關注,它在圖像分析和視頻理解之間建立聯系,在現實的生活中有著潛在的應用價值。視頻行為檢測通常要回答兩個問題:是什么行為和在哪里發生。近年來,隨著深度學習的興起,目前的研究方法基本上遵照一個兩步走的策略:1)單幀圖片進行行為檢測;2)用動態規劃算法把單幀結果鏈接成有效的行為鏈。2015年,Gkioxari等人(G.Gkioxari,J.Malik,“Finding action tubes”,IEEE Conference on Computer Vision and PatternRecognition,pp.759-768)提出了一種基于深度學習的兩段式視頻行為檢測方法。他們的模型存在著下述兩個缺陷:1)外形和運動信息在兩個獨立的通道中分別進行特征提取,再把他們連接進行運動檢測,沒有考慮兩者之間的互補性;2)單幀檢測結果鏈接算法是批處理模式的,等到視頻結束才能給出處理結果,無法實現視頻行為的在線檢測。此外,他們的算法只能處理裁剪過的視頻(即,行為從視頻的開始一直延續到視頻結束),而無法處理未裁剪的視頻(即,行為可以從視頻中的任意一幀開始,在隨后的任意一幀結束)。
發明內容
本發明的目的是提供一種基于外形-運動雙流信息融合的視頻行為檢測方法。該方法在單幀視頻行為檢測基礎上,通過動態增長算法實現行為的在線檢測任務。該方法魯棒性強,在多個視頻檢測數據集上,能同時對行為進行準確地分類和精確地定位。
本發明提出的方法與現有的方法相比有兩點主要的改進:1)本發明提出的外形-運動信息融合方法是基于卷積網絡的深度特征融合,即在圖像塊的外形模式和其對應的運動模式之間建立關聯,而不像現有的方法經常采用的結果融合、特征連接等淺層次融合;2)本發明提出的行為鏈動態增長算法是在線式的,能夠對未裁剪的視頻進行處理,而現有的基于動態規劃的路徑鏈接算法只能處理裁剪過的視頻。此外,本發明提出的算法可以對視頻中存在的多條行為鏈同時進行處理,而現有的方法只能逐條處理。
本發明的原理是:1)構建深度學習模型提取單幀圖像外形和運動信息抽象特征,再利用深度卷積網絡對這兩類信息進行融合,在融合的結果上進行行為框提取和行為分類,實現單幀視頻行為檢測;2)基于分類得分、位置關系和特征相似度構建基于單幀檢測結果的動態增長行為鏈接算法、把對應于同一運動目標的行為軌跡檢測出來。
本發明提供的技術方案如下:
本發明提出的視頻行為檢測方法包括兩個部分:提取單幀圖像的外形和運動信息深度表述特征,構建卷積網絡將這兩部分信息進行融合,然后在融合后的特征上提取行為提議,利用多分類網絡和位置回歸網絡對行為提議進行分類和位置調整,得到行為檢測結果;構建動態增長的鏈接算法把對應于同一運動目標的多幀行為檢測結果鏈接起來構成行為路徑。從一段視頻輸入到檢測結果輸出包括以下若干步驟:
一種基于外形-運動雙流信息融合的視頻行為檢測方法,包括以下步驟:
步驟1:對當前幀計算光流圖像,提取RGB圖像和光流圖像的深度表述特征,具體是對當前視頻幀提取光流圖像,構建深度卷積網絡分別計算RGB圖像和光流圖像的表述特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳龍崗智能視聽研究院,未經深圳龍崗智能視聽研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811298485.1/2.html,轉載請聲明來源鉆瓜專利網。





