[發(fā)明專利]基于骨架和視頻特征融合的行為分類方法有效
| 申請?zhí)枺?/td> | 202011419698.2 | 申請日: | 2020-12-06 |
| 公開(公告)號: | CN112560618B | 公開(公告)日: | 2022-09-16 |
| 發(fā)明(設(shè)計)人: | 路紅;汪子健;楊博弘;冉武;沈夢琦;任浩然 | 申請(專利權(quán))人: | 復旦大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 骨架 視頻 特征 融合 行為 分類 方法 | ||
本發(fā)明屬于計算機圖像處理技術(shù)領(lǐng)域,具體為一種基于骨架和視頻特征融合的行為分類方法。本發(fā)明方法包括:對已有的人類行為視頻數(shù)據(jù)進行預處理,通過人體檢測模型和OpenPose分別獲取對應的人體檢測框和人體骨架數(shù)據(jù),作為深度學習模型的訓練數(shù)據(jù);其中視頻數(shù)據(jù)和人體檢測框數(shù)據(jù)作為前景與背景特征融合網(wǎng)絡(luò)的輸入,骨架特征作為個體與群體特征融合網(wǎng)絡(luò)的輸入;兩個網(wǎng)絡(luò)的輸出結(jié)果進行平均為最終分類結(jié)果;接著對訓練集進行監(jiān)督式學習,得到泛化的深度學習模型;然后,對識別的視頻進行和模型訓練時一樣的預處理,然后作為輸入,放進預先訓練好深度學習模型里,就能得到行為分類的結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機圖像處理技術(shù)領(lǐng)域,具體涉及一種利用骨架特征和視頻特征融合的行為分類方法。
背景技術(shù)
在計算機視覺任務(wù)中,行為識別是十分具有挑戰(zhàn)性的領(lǐng)域。行為識別主要有兩類研究方法,一類是基于RGB圖像的行為識別,另外一類是基于骨架的行為識別。基于RGB的方法,其優(yōu)點是擁有所有視覺層面上的信息,特征完備,但其缺點是場景過于豐富,而人體姿態(tài)在不同的相機角度下變化太大,模型無法完全理解人體姿態(tài)語義信息,可能學習到更多的背景特征。基于骨架的方法,其優(yōu)點人體姿態(tài)結(jié)構(gòu)清晰,天然的圖模型,對相機視角變化和背景不敏感,特征聚焦在人體。但其缺點也很明顯,沒有其他物體和背景相關(guān)特征,導致當人體與物體進行交互時,往往很難識別其行為類別。因此可以通過將視頻特征與骨架特征相融合,以解決單一特征不魯棒的缺點。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種魯棒性好的將視頻與骨架特征融合的行為分類方法。
本發(fā)明提供的將視頻與骨架特征融合的行為分類方法,是基于深度學習的;基本步驟為:對已有的人類行為視頻數(shù)據(jù)進行預處理,通過人體檢測模型和OpenPose[1]分別獲取對應的人體檢測框和人體骨架數(shù)據(jù),作為深度學習模型的訓練數(shù)據(jù);其中視頻數(shù)據(jù)和人體檢測框數(shù)據(jù)作為前景與背景特征融合網(wǎng)絡(luò)的輸入,骨架特征作為個體與群體特征融合網(wǎng)絡(luò)的輸入;兩個網(wǎng)絡(luò)的輸出結(jié)果進行平均為最終分類結(jié)果;接著對訓練集進行監(jiān)督式學習,得到泛化的深度學習模型;然后,對識別的視頻進行和模型訓練時一樣的預處理,然后作為輸入,放進預先訓練好深度學習模型里,就能得到行為分類的結(jié)果。
本發(fā)明提出的基于骨架和視頻特征融合的行為分類方法,具體步驟如下:
(1)獲取深度學習的訓練數(shù)據(jù);
(2)訓練深度學習模型;
(3)用訓練好的模型對視頻進行行為分類。
步驟(1)中所述獲取深度學習訓練數(shù)據(jù)的具體流程為:
(11)首先處理視頻數(shù)據(jù);所有的視頻數(shù)據(jù)都按30FPS處理,所有視頻縮放至256×256,并同時從視頻中隨機抽取一段視頻幀,長度為T,采樣率為2(即每隔一幀采樣一次);
(12)用ResNet-101-FPN為骨干的Faster-RCNN[2]模型對流程(11)中處理好的視頻數(shù)據(jù)進行人體檢測,得到人體檢測框;該ResNet-101-FPN為骨干的Faster-RCNN模型是在ImageNet和COCO人體關(guān)鍵點數(shù)據(jù)集上預訓練得到的;
(13)對流程(12)中獲取的人體檢測框數(shù)據(jù),在每個人體框內(nèi)使用OpenPose的2D姿態(tài)估計來獲取骨架數(shù)據(jù),其數(shù)據(jù)結(jié)構(gòu)為18個關(guān)節(jié)的2D空間坐標。
步驟(2)中所述訓練深度學習模型,具體包括:
對于視頻數(shù)據(jù)使用前景與背景特征融合網(wǎng)絡(luò)進行訓練;所述前景與背景特征融合網(wǎng)絡(luò)是由3DCNN網(wǎng)絡(luò)提取的背景特征與人體檢測框內(nèi)的前景特征進行融合的網(wǎng)絡(luò),其中3DCNN網(wǎng)絡(luò)使用SlowFast[3]網(wǎng)絡(luò);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復旦大學,未經(jīng)復旦大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011419698.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





