[發(fā)明專利]一種基于2.5D/3D混合卷積模型的人體行為識別方法有效
| 申請?zhí)枺?/td> | 202011076560.7 | 申請日: | 2020-10-10 |
| 公開(公告)號: | CN112215130B | 公開(公告)日: | 2022-08-16 |
| 發(fā)明(設計)人: | 車翔玖;劉全樂;郭帆;梁郭;艾欣;趙孟雪 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 長春吉大專利代理有限責任公司 22201 | 代理人: | 杜森垚 |
| 地址: | 130012 吉林省長春市*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 2.5 混合 卷積 模型 人體 行為 識別 方法 | ||
1.一種基于2.5D/3D混合卷積模型的人體行為識別方法,其特征在于,包括以下步驟:
步驟1,搭建2.5D/3D混合卷積神經網絡模型:
搭建的2.5D/3D混合卷積神經網絡模型由2.5D卷積模塊與3D卷積模塊共同組成;
其中,2.5D卷積模塊由常規(guī)2D卷積核針對6通道圖片進行卷積操作,該2.5D卷積模塊采用7×7卷積層和3×3池化層,以及隨后的7個瓶頸殘差塊構建,最終輸出為28×28大小的特征圖,并設置每張圖像卷積后的最終輸出通道數(shù)為79,其卷積操作表示為:
式中:ReLU為激活函數(shù),為第s層第t個特征圖中位置(i,j)的輸出值,b為偏置量,m表示上一層卷積輸出的特征圖的數(shù)量,P為卷積核的高度,Q為卷積核的寬度,為第s層第t個特征圖對應上一層m個特征圖在卷積核(p,q)位置上的權重,v為上一層特征圖對應位置的值;
3D卷積模塊的結構由8個3×3×3的3D卷積核,1個池化層,1個全連接層組成,其卷積操作表示為:
式中:ReLU為激活函數(shù),為第s層第t個特征圖中位置(i,j,k)的輸出值,b為偏置量,m表示上一層卷積輸出的特征圖的數(shù)量,P為卷積核的高度,Q為卷積核的寬度,R為卷積核的時間深度,為第s層第t個特征圖對應上一層m個特征圖在卷積核(p,q,r)位置上的權重,v為上一層特征圖對應位置的值;步驟2,讀取人體行為數(shù)據(jù)訓練集中的視頻數(shù)據(jù);
步驟3,針對所述步驟2讀取的視頻數(shù)據(jù)進行時間采樣與空間增強操作,并進行拼接,得到2.5D圖像序列;所述步驟3具體包括以下過程:
針對每段人體行為視頻,首先進行視頻幀的時間采樣,先抽取第一幀,隨后從剩余的幀中隨機抽取8幀;
隨后從空間維度進行數(shù)據(jù)增強,將采樣得到的視頻幀分別從四個角落以及圖像中心進行裁剪,裁剪的長、寬比例均為原始圖像的79%,隨后調整大小至224×224,實現(xiàn)將數(shù)據(jù)集增強擴充為原始數(shù)據(jù)的6倍,即5組視頻幀采樣序列;
針對裁剪、增強后的采樣幀進行數(shù)據(jù)拼接,將上述各組第一幀的RGB通道直接復制,形成1張6通道圖像,代表空間信息,剩下的8幀圖像按時間順序兩兩拼接,形成4張6通道圖像,代表時間推理信息;由此每段視頻對應的5組視頻幀序列均包含5張6通道2.5D圖像;
步驟4,將所述步驟3中得到的圖像序列輸入到已通過預訓練的神經網絡模型中,進行模型訓練;
步驟5,讀取測試數(shù)據(jù)集中的人體行為視頻數(shù)據(jù);
步驟6,將所述步驟5讀取的視頻數(shù)據(jù)進行采樣、裁剪、拼接,得到2.5D圖像序列;
針對每段視頻,首先從時間維度進行采樣,即抽取第一幀,并從剩余的幀中隨機抽取8幀;隨后從每幀圖像的中心向四條邊進行裁剪,使裁剪之后圖像的長、寬比例均為原始圖像的79%,并調整大小至224×224;
針對經過采樣與裁剪的視頻幀進行拼接,將第一幀的RGB通道直接復制,形成1張6通道圖像,代表空間信息,剩下的8幀圖像按時間順序兩兩拼接,形成4張6通道圖像,代表時間推理信息,由此構成5張6通道2.5D圖像;
步驟7,將所述步驟6得到的圖像序列作為所述步驟4訓練得到的模型的輸入,得到測試視頻中人體行為的所屬類別。
2.如權利要求1所述的一種基于2.5D/3D混合卷積模型的人體行為識別方法,其特征在于,所述步驟4具體包括以下過程:
將所述步驟3得到的采樣、增強的視頻幀輸入到已通過20BN-something-somethingDataset V2數(shù)據(jù)集預訓練完成的混合卷積模型的神經網絡模型進行訓練。
3.如權利要求2所述的一種基于2.5D/3D混合卷積模型的人體行為識別方法,其特征在于,所述神經網絡模型的預訓練與訓練過程中,均需按所述步驟3構建6通道圖像,同時采用5張6通道圖像并行輸入的模式,輸入到網絡模型中進行特征提取與識別;在3D卷積模塊階段,將經過2.5D卷積模塊輸出的特征圖變形構建為一組5×79通道特征圖,并輸入到3D模塊進行訓練;整個訓練過程以端到端的形式進行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011076560.7/1.html,轉載請聲明來源鉆瓜專利網。





