[發明專利]基于層次動態深度投影差值圖像表示的視頻行為識別方法及系統有效
| 申請號: | 201811327041.6 | 申請日: | 2018-11-08 |
| 公開(公告)號: | CN109460734B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 馬昕;武寒波;榮學文;宋銳;田新誠;田國會;李貽斌 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 董雪 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 層次 動態 深度 投影 差值 圖像 表示 視頻 行為 識別 方法 系統 | ||
本發明公開了一種基于層次動態深度投影差值圖像(HDDPDI)表示的視頻行為識別方法及系統,首先把深度視頻序列分別投影在三個正交的笛卡爾平面內生成對應的深度投影圖序列,來捕捉人體行為的3D輪廓和運動特征,每個投影平面中基于深度投影圖序列來構建對應的HDDPDI。HDDPDI能夠同時編碼視頻中行為的時空運動動態。CNN可以自動學習圖像中的差異特征。為了驗證所提出HDDPDI視頻表示的有效性,構造了一個基于CNN的行為識別框架,其中設計了三種行為分類方案。三個投影平面內的HDDPDI分別單獨輸入三個相同的預訓練CNN進行網絡參數的微調,不同的分類方案使用CNN不同的網絡層以比較它們對行為識別的影響,每一種分類方案中融合三個投影平面的信息以獲取更加豐富全面的行為特征表示。
技術領域
本發明涉及行為識別技術領域,具體而言,涉及到一種基于層次動態深度投影差值圖像表示的視頻行為識別方法及系統。
背景技術
近年來,人體行為識別在計算機視覺領域內吸引了越來越多的關注。傳統基于RGB數據的行為識別方法通常聚焦于人體輪廓特征,關鍵姿勢等。盡管他們在一些特定的應用背景下可能具有了較高的識別性能,然而,基于RGB的行為識別方法對光照條件的變化非常敏感,對在更具挑戰性的場景中(存在遮擋和雜亂的背景)的人體行為也無法準確地識別。
低成本集成深度傳感器的出現如微軟的KinectTM,可以同時捕獲RGB(紅、綠、藍)視頻和深度信息,極大地促進了對基于深度數據的人體行為識別研究。與傳統的RGB相機相比,Kinect深度傳感器能夠捕獲場景的三維結構信息,簡化了類內的運動變化,消除了雜亂的背景噪聲,為人體行為識別提供了便利與幫助。此外,深度信息可以消除光照和顏色變化的影響。因此,基于深度數據的人體行為識別受到了越來越多的關注,國內外研究人員提出了多種典型的深度特征表示方法如深度運動投影圖、局部占用模式、4D法向量方向直方圖、超法向量、深度立方體相似性特征、距離樣本深度特征等。
在過去的十年中,由于計算機性能的顯著提升以及一些大規模數據集的出現,深度學習得到了越來越多的關注,并被廣泛用于應對各種計算機視覺任務的挑戰。其中最典型的深度神經網絡模型是由LeCun提出的CNN。CNN可以自動學習具有差異性的圖像特征,是用于理解圖像內容的一個非常有效的模型。由于它優越的性能,大量的研究人員逐漸開始把CNN應用在基于視頻的行為識別任務中。然而,目前大多數基于CNN的行為識別都依賴于RGB和骨骼數據,而且,深度神經網絡模型評估所使用的公共人體行為數據集絕大多數只包含RGB數據,如UCF-101,HMDB51,Kinetics。因此,目前多數基于CNN的行為識別研究工作針對的都是RGB視頻中的行為識別與分類,一些標志性的成果如3D卷積網絡(C3D)、雙流卷積網絡、基于軌跡池化的深度卷積描述子、時間分割網絡(TSN)等等;然而,基于深度數據進行的行為識別研究少之又少。
與圖像分類任務不同,行為視頻是3D的,包含了豐富的時空動態信息。由于視頻能夠被表示為圖像序列,因此大多數的特征提取算法都是基于圖像幀的,而如何建模視頻中的時間結構一直是一個具有挑戰性的問題。
深度視頻序列通過在不同視角進行投影來獲取行為運動變化的思路最早來源于深度運動投影圖(Depth Motion Maps,DMM)。雖然DMM包含了行為視頻的運動變化信息,但是求和運算忽略了視頻中行為的時序信息。
發明內容
為了解決上述問題,本發明提出了一種基于層次動態深度投影差值圖像表示的視頻行為識別方法及系統,能夠同時從不同的時間尺度提取視頻中行為的時空動態信息。通過應用排序池化和動態圖像,層次動態深度投影差值圖像HDDPDI視頻表示方法克服了原始DMM忽略時序信息的缺點,顯著地提升了行為識別的性能。
為了實現上述目的,本發明采用如下技術方案:
在一個或多個實施方式中公開的一種基于層次動態深度投影差值圖像表示的視頻行為識別方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811327041.6/2.html,轉載請聲明來源鉆瓜專利網。





