[發(fā)明專利]一種基于2.5D/3D混合卷積模型的人體行為識(shí)別方法有效
| 申請?zhí)枺?/td> | 202011076560.7 | 申請日: | 2020-10-10 |
| 公開(公告)號: | CN112215130B | 公開(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計(jì))人: | 車翔玖;劉全樂;郭帆;梁郭;艾欣;趙孟雪 | 申請(專利權(quán))人: | 吉林大學(xué) |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 長春吉大專利代理有限責(zé)任公司 22201 | 代理人: | 杜森垚 |
| 地址: | 130012 吉林省長春市*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 2.5 混合 卷積 模型 人體 行為 識(shí)別 方法 | ||
本發(fā)明公開了一種基于2.5D/3D混合卷積模型的人體行為識(shí)別方法,構(gòu)建融合2.5D與3D卷積模塊的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),并利用公開的人體行為識(shí)別數(shù)據(jù)集進(jìn)行端到端的預(yù)訓(xùn)練,得到初始化網(wǎng)絡(luò)模型,讀取人體行為訓(xùn)練視頻,對訓(xùn)練視頻進(jìn)行均等采樣與數(shù)據(jù)增強(qiáng),利用數(shù)據(jù)增強(qiáng)后的采樣幀拼接構(gòu)建2.5D圖像,將其輸入到經(jīng)過預(yù)訓(xùn)練的網(wǎng)絡(luò)架構(gòu)進(jìn)行模型訓(xùn)練,形成識(shí)別模型。讀取測試集中的人體行為視頻,對其進(jìn)行采樣與裁剪,輸入到識(shí)別模型進(jìn)行識(shí)別,端到端地判斷其所屬的行為類別。本發(fā)明根據(jù)2.5D、3D卷積模塊可以針對視頻幀序列進(jìn)行有效的時(shí)間與空間建模的特點(diǎn),構(gòu)建并訓(xùn)練可以準(zhǔn)確識(shí)別人體行為的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能與圖像處理領(lǐng)域,特別涉及一種基于2.5D/3D混合卷積模型的人體行為識(shí)別方法。
背景技術(shù)
行為識(shí)別是指通過圖像處理方面的方法識(shí)別視頻中人體的動(dòng)作類別,這一技術(shù)可以應(yīng)用在智能安防、機(jī)器人智能陪護(hù)、智能教育等多種實(shí)際場景。因此,研究人體行為識(shí)別方法具有重要的現(xiàn)實(shí)意義。
在傳統(tǒng)的人體行為識(shí)別方法中,通常采取手工定義特征模板,并采用傳統(tǒng)圖像處理方法提取視頻幀中的特征,進(jìn)而利用特征模板判別人體行為所屬類別。
深度學(xué)習(xí)技術(shù)的發(fā)展以及公共行為識(shí)別數(shù)據(jù)庫的不斷擴(kuò)充,使得基于卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法得到了長足的進(jìn)展。此類方法通常從一段視頻中抽取少量采樣幀,并利用訓(xùn)練完成的2D卷積神經(jīng)網(wǎng)絡(luò)模型逐幀判別所屬行為類別,最終取各幀分類的平均結(jié)果作為此段視頻中包含的人體行為類別。但是,此類方法不具備對人體行為的時(shí)間特征進(jìn)行建模的能力,具有一定的局限性,識(shí)別準(zhǔn)確率低。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)存在的上述問題,更好地對人體行為視頻數(shù)據(jù)中的時(shí)間特征進(jìn)行建模,本發(fā)明提出了一種基于2.5D/3D混合卷積模型的人體行為識(shí)別方法。該方法構(gòu)建2.5D/3D混合的卷積神經(jīng)網(wǎng)絡(luò)模型,利用公開的人體行為數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并使用學(xué)習(xí)到的參數(shù)作為模型訓(xùn)練的初始化參數(shù),減少了訓(xùn)練樣本的需求量。利用經(jīng)過采樣與增強(qiáng)的視頻幀構(gòu)建2.5D圖像,將其輸入到混合卷積模型中進(jìn)行端到端的訓(xùn)練,結(jié)合2.5D圖像固有的時(shí)間特征與3D卷積核的時(shí)間學(xué)習(xí)能力,訓(xùn)練形成具備較強(qiáng)時(shí)空特征提取能力與人體行為識(shí)別能力的網(wǎng)絡(luò)架構(gòu)。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種基于2.5D/3D混合卷積模型的人體行為識(shí)別方法,主要包括以下步驟:
步驟1,搭建2.5D/3D混合卷積神經(jīng)網(wǎng)絡(luò)模型;
步驟2,讀取人體行為數(shù)據(jù)訓(xùn)練集中的視頻數(shù)據(jù);
步驟3,針對所述步驟2讀取的視頻數(shù)據(jù)進(jìn)行時(shí)間采樣與空間增強(qiáng)操作,并進(jìn)行拼接,得到2.5D圖像序列;
步驟4,將所述步驟3中得到的圖像序列輸入到已通過預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型中,進(jìn)行模型訓(xùn)練;
步驟5,讀取測試數(shù)據(jù)集中的人體行為視頻數(shù)據(jù);
步驟6,將所述步驟5讀取的視頻數(shù)據(jù)進(jìn)行采樣、裁剪、拼接,得到2.5D圖像序列;
步驟7,將所述步驟6得到的圖像序列作為所述步驟4訓(xùn)練得到的模型的輸入,得到測試視頻中人體行為的所屬類別。
進(jìn)一步地,所述步驟1搭建的2.5D/3D混合卷積神經(jīng)網(wǎng)絡(luò)模型由2.5D卷積模塊與3D卷積模塊共同組成;
其中,2.5D卷積模塊由常規(guī)2D卷積核針對6通道圖片進(jìn)行卷積操作,該2.5D卷積模塊采用7×7卷積層和3×3池化層,以及隨后的7個(gè)瓶頸殘差塊構(gòu)建,最終輸出為28×28大小的特征圖,并設(shè)置每張圖像卷積后的最終輸出通道數(shù)為79,其卷積操作表示為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011076560.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





