[發明專利]基于3D注意力殘差模型的人體行為識別方法及系統有效
| 申請號: | 202010114850.X | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111382677B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 董敏;李永發;畢盛 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/764;G06V10/774;G06N3/0464;G06N3/096 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 模型 人體 行為 識別 方法 系統 | ||
1.基于3D注意力殘差模型的人體行為識別方法,其特征在于,包括以下步驟:
1)獲取人體行為視頻數據集:采集YouTube網站視頻、下載UCF101和Kinetics-400公共數據集,以及通過單目攝像頭采集的視頻數據;
2)對步驟1)的視頻數據進行預處理操作,包括視頻幀轉換和關鍵幀提取,并制作數據集;
3)建立3D注意力殘差模型,并對步驟2)所得到的數據集提取特征,包括以下步驟:
3.1)建立3D淺層特征提取公共模塊:以連續的16幀圖片數據作為該模塊的輸入,然后依次經過4個小塊:第一和第二小塊包各含一個卷積層,第三和第四小塊各包含兩個卷積層,每個小塊后的卷積層均包含一個池化層,總共含有6層3D卷積、4層最大池化操作,四個卷積層對應的卷積核數量分別為64、128、256和512;
3.2)建立3D殘差模塊:包含4個3D卷積,4個Relu激活層,1個shortcut連接操作,卷積層的卷積核大小分別為1×1×1、1×3×3、3×1×1和1×1×1;
3.3)建立3D注意力模塊,包含兩個部分:分別是注意力權重計算部分和卷積特征提取部分;注意力權重計算部分分為兩個分支,分別包含一個3D卷積操作和一個Reshape操作,卷積核大小為1×1×1;卷積特征提取部分只包含一個3D卷積操作,卷積核大小為1×1×1;最后,再對兩部分得到的結果進行乘積融合得到注意力特征,然后再加上卷積層提取的特征,作為注意力模塊的輸出;
3.4)將步驟3.3)中的注意力模塊和步驟3.2)建立的殘差模塊進行融合,融合有兩種策略:第一種策略,將殘差模塊加入到注意力模塊的shortcut當中;第二種策略,將注意力模塊并列在殘差模塊的后面使之成為一個整體;此兩種策略融合得到的模型均稱為3D注意力殘差模型;
3.5)對基于3D注意力殘差模型中每層卷積層的權重都采用正太分布的方式進行初始化,并且為了防止過擬合對權重進行L2正則衰減;
4)利用Softmax分類器對步驟3)所得到的特征進行分類、識別,實現模型訓練;
5)根據實際場景或現實需求對步驟4)訓練好的模型進行遷移,并對其進行微調,提升其泛化能力,最后將微調好的模型應用于實際的人體行為識別任務中。
2.根據權利要求1所述的基于3D注意力殘差模型的人體行為識別方法,其特征在于,在步驟1)中,獲取人體行為視頻數據集,包括以下步驟:
1.1)收集視頻數據,從開源視頻數據集進行搜集,通過下載UCF101和Kinetics-400公共數據集;利用爬蟲腳本抓取YouTube網站中和人體行為識別相關的視頻數據;利用單目攝像頭采集實際環境中的人體行為視頻數據作為測試數據集;
1.2)格式化視頻數據,首先根據不同的類別分別將其歸檔到各自類別文件夾中;然后對同一文件夾內的文件按照遞增的序列進行命名,所有的視頻文件的后綴統一命名為AVI。
3.根據權利要求1所述的基于3D注意力殘差模型的人體行為識別方法,其特征在于,在步驟2)中,對步驟1)所得到的視頻數據進行預處理操作,包括以下步驟:
2.1)利用視頻幀提取腳本,依次對每個類別下的每一個視頻進行幀提取并保存到對應視頻名的文件夾內,得到圖片幀數據集;
2.2)針對步驟2.1)提取的視頻幀進行幀統計,并保存在txt文件中,txt文件中保存的內容為:序號、視頻類別、視頻名稱和對應的圖片幀數量;
2.3)依次讀取步驟2.1)中所獲得的圖片幀數據集;
2.4)加載局部極大值的幀間差分法,并根據實際需要設置窗口大小和窗口內數據光滑算法;
2.5)對每一個圖片幀文件夾進行關鍵幀提取,并保存到對應的文件夾內,得到關鍵幀數據集。
4.根據權利要求1所述的基于3D注意力殘差模型的人體行為識別方法,其特征在于,在步驟4)中,利用Softmax分類器對步驟3)所得到的特征進行分類、識別,實現模型訓練,包括以下步驟:
4.1)對步驟3)中建立的3D注意力殘差模型所提取的特征進行Flatten()操作;
4.2)添加兩個全連接層操作,并且每一個全連接層后增加一個Dropout(0.5),防止模型過擬合;
4.3)將全連接層后的特征向量作為Softmax分類器的輸入,輸出大小為對應類別的實際數量大小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010114850.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于注意力機制的沙粒圖像分類方法
- 下一篇:一種光亮潤滑劑及其制備方法





