[發明專利]基于3D注意力殘差模型的人體行為識別方法及系統有效
| 申請號: | 202010114850.X | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111382677B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 董敏;李永發;畢盛 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/764;G06V10/774;G06N3/0464;G06N3/096 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 模型 人體 行為 識別 方法 系統 | ||
本發明公開了一種基于3D注意力殘差模型的人體行為識別方法及系統,包括步驟:1)獲取人體行為視頻數據集:采集YouTube網站視頻、下載UCF101和Kinetics?400公共數據集,以及通過單目攝像頭采集的視頻數據;2)對步驟1)的視頻數據進行預處理操作,包括視頻幀轉換和關鍵幀提取,并制作數據集;3)建立3D注意力殘差模型,并對步驟2)所得到的數據集提取特征;4)利用Softmax分類器對步驟3)所得到的特征進行分類、識別,實現模型訓練;5)根據實際場景或現實需求對步驟4)訓練好的模型進行遷移,并對其進行微調,提升其泛化能力,最后將微調好的模型應用于實際的人體行為識別任務中。本發明提高多類別和復雜視頻場景處理的實時人體行為分析,具有廣泛的研究和實際應用價值。
技術領域
本發明涉及基于復雜視頻場景的人體行為識別分析的技術領域,尤其是指一種基于3D注意力殘差模型的人體行為識別方法及系統。
背景技術
伴隨著5G技術的出現和應用,傳統的互聯網時代即將跨入萬物互聯的智能時代。而隨著智能化的不斷深入和應用,越來越多的領域都需要智能化的解決方案或相關的系統進行輔助。比如智慧城市管理,智能監控系統的應用,智能化的人機交互等。而這些領域方面中都離不開計算機視覺的相關技術,這些技術中又屬深度學習的發展和應用最為廣泛。但是,提升深度學習相關模型在視頻分析處理效率和識別準確率方面仍然是一項十分具有挑戰性的任務,受到了CV(Computer?Visio)領域研究者的廣泛關注。
基于視頻的人體行為識別指的是根據已有的視頻片段或實時的視頻數據預測其當中的人的動作行為或表現。傳統的人體行為識別主要包括:特征采樣(主要是通過人工手段進行)、特征表示以及特征分類、預測。而其中的難點又主要集中在特征采用和特征表示兩個階段,并且提取的特征泛化性較差,難以適用“大數據時代”下的應用需求。
而隨著深度學習在圖片分類上的應用、推廣(尤其是ImageNet數據集的誕生),使得其在諸多的領域取得了不錯的成績。比如:人臉識別、圖片分類、目標檢測等領域。而基于視頻人體行為分析、識別又是這些領域的一個特定的分支,因為視頻也是由一張張圖片幀所構成的,因此對視頻的分類、識別,最終還是轉換為了對圖片幀的處理。因此早期的深度學習在基于視頻的人體行為識別上就是采用這一思想。但是由于,視頻本身具有時序信息,因此單純的采用早期的深度模型往往會忽略了時間維度上的信息,從而降低預測的準確性。
為了解決這一不足之處,目前常用的模型方案主要分為兩種:1)采用雙流的CNN(其中最為經典的就是2015年提出的Two?Stream?CNN)分別采用2DCNN從時間和空間維度上進行特征的提取,然后在Softmax層對兩個模型進行融合、分類;2)采用3D的卷積操作,同時從時間和空間兩個維度上進行特征的提取(其中最為代表性的就是2015年提出的C3D模型以及由它衍生而來的P3D、R3D、R(2+1)D、I3D等)。雖然方案1)和2)都同時考慮了時空維度上的特征信息,但是他們仍然存在著不足之處。方案1)是分開進行時空特征提取,忽略了兩者之間本身的關聯,因為任何一段視頻都是連續的并且行為主體的動作都是前后相關聯的;方案2)雖然彌補了時空特征分開考慮的弊端,但是3D卷積的模型參數遠大于2D模型,因此往往會存在卷積過程中梯度消失的問題,并且3D卷積是從視頻全局進行特征的提取,不能很好的定位到行為的本身,因此往往會帶來特征冗余、關鍵信息表示不足等弊端。因此,基于視頻的人體行為識別、分析不僅僅要同時考慮時空特征,還要考慮關鍵特征突出對分類的影響。這樣才能夠更好的保證在復雜的場景下的實時人體行為的分析和識別。
發明內容
本發明的目的在于克服目前3D卷積網絡模型在人體行為識別上對于復雜場景或者場視頻片段中特征信息捕獲的不足,提出了一種基于3D注意力殘差模型的人體行為識別方法及系統,彌補3D?CNN在深層次模型中梯度消失、冗余信息過多以及關鍵信息不突出等弊端,從而強化其特征的提取,提高模型在復雜場景或長視頻中的識別效率,使其能夠更好的應用于實際的生產應用當中。
為實現上述目的,本發明所提供的技術方案為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010114850.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于注意力機制的沙粒圖像分類方法
- 下一篇:一種光亮潤滑劑及其制備方法





