[發明專利]基于骨架和視頻特征融合的行為分類方法有效
| 申請號: | 202011419698.2 | 申請日: | 2020-12-06 |
| 公開(公告)號: | CN112560618B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 路紅;汪子健;楊博弘;冉武;沈夢琦;任浩然 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 骨架 視頻 特征 融合 行為 分類 方法 | ||
1.一種基于骨架和視頻特征融合的行為分類方法,其特征在于,具體步驟如下:
(1)獲取深度學習的訓練數據;
(2)訓練深度學習模型;
(3)用訓練好的模型對視頻進行行為分類;
步驟(1)中所述獲取深度學習訓練數據的具體流程為:
(11)首先處理視頻數據;所有的視頻數據都按30FPS處理,所有視頻縮放至256×256,并同時從視頻中隨機抽取一段視頻幀,長度為T,采樣率為2,即每隔一幀采樣一次;
(12)以ResNet-101-FPN為骨干的Faster-RCNN模型對流程(11)中處理好的視頻數據進行人體檢測,得到人體檢測框;該ResNet-101-FPN為骨干的Faster-RCNN模型是在ImageNet和COCO人體關鍵點數據集上預訓練得到的;
(13)對流程(12)中獲取的人體檢測框數據,在每個人體框內使用OpenPose的2D姿態估計來獲取骨架數據,其數據結構為18個關節的2D空間坐標;
步驟(2)中所述訓練深度學習模型,具體包括:
對于視頻數據使用前景與背景特征融合網絡進行訓練;所述前景與背景特征融合網絡是由3DCNN網絡提取的背景特征與人體檢測框內的前景特征進行融合的網絡,其中3DCNN網絡使用SlowFast網絡;
對于骨架數據使用個體與群體特征融合網絡進行訓練;所述個體與群體特征融合網絡主要由ST-GCN網絡構成,通過注意力機制自適應調整個體行為在群體行為中的權重;
訓練深度學習模型的具體流程為:
(21)設置模型超參數;
模型中主要超參數有:GPU個數,批次大小,動量參數,權重衰減項,學習率,丟棄率,迭代次數;
(22)超參數設置好后,開始訓練,注意訓練時的訓練損失和驗證損失值,兩者同時減小說明網絡預測能力正逐步增加,當兩者不再減小時,說明網絡已經收斂,結束訓練;
(23)多次調整超參數,得到泛化性能最好的模型;
步驟(3)用訓練好的模型對待分類視頻進行行為分類,包括:對視頻數據的處理,與步驟(1)相同;其中視頻數據和人體檢測框輸入到前景與背景特征融合網絡,骨架數據輸入到個體與群體特征融合網絡;最后對兩者的輸出結果進行平均,得到最后的分類結果。
2.根據權利要求1所述的基于骨架和視頻特征融合的行為分類方法,其特征在于,步驟(2)中,對于數據集較小的情形,對數據進行數據增強處理;包括對視頻數據和骨架數據同時做隨機縮放,隨機旋轉-20度至20度,隨機裁剪以及隨機水平翻轉操作;對視頻數據做隨機顏色抖動操作;針對每個骨架節點的空間位置做輕微隨機抖動。
3.根據權利要求1或2所述的基于骨架和視頻特征融合的行為分類方法,其特征在于,步驟(2)中,模型中超參數具體設置如下:GPU個數:設置為8;批次大?。涸O置為64;動量參數:這個值影響著梯度下降到最優值的速度,設置為0.9;權重衰減項:權重衰減正則項值越大對過擬合的抑制能力越大,設置為0.0001;學習率調整策略:使用帶有線性warmup策略的SGDR,計算方式為η·[cos(1+i/imax·π)];其中η為初始學習率,設置為0.1,imax為總迭代次數,i為第i次迭代;丟棄率:設置為0.5;迭代次數:訓練的總次數,10萬次以上。
4.根據權利要求3所述的基于骨架和視頻特征融合的行為分類方法,其特征在于:
前景與背景特征融合網絡實現的具體流程為:
設視頻片段RGB數據經過時空卷積神經網絡的前向傳播后得到的特征圖為其中B為批大小,C為通道數,T、H和W分別為特征圖的時長、高以及寬;首先對XST進行時序全局池化消去時序維度,得到接著用提前訓練好的人體檢測器檢測出該視頻段內關鍵幀的人體邊界框,設為n×[x1,y1,x2,y2,score],其中n為檢測框的數量,score為檢測框的置信度;前景特征圖Xf為經過ROIAlign操作后的特征;Xb為下采樣后的X,也是全局特征,前景特征與背景特征的融合操作在第二維度上進行;
個體與群體特征融合網絡實現的具體流程為:
使用ST-GCN作為骨架特征抽取的基本模塊;對于群體骨架序列,其輸入的數據為其中B代表批次大小,N代表固定的群體人數,T為時間序列長度,V為骨架節點個數;當視頻幀中人數大于N時,取其中N個置信度最大的骨架序列;當視頻中人數小于N時,對于缺少的人數的骨架序列都設為{B,N′,T,V}=1e-8,其中N′為缺少的人數;對于個體骨架序列,每個骨架序列Xi,1≤i≤N的維度都為{B,1,T,V};對于群體骨架序列,使用ST-GCNg進行時空圖卷積,獲取群體骨架特征Fg;對于每個個體骨架序列,使用ST-GCNi,1≤i≤N進行時空圖卷積,獲取個體骨架特征Fi;然后對不同個體的骨架特征進行融合,這里直接進行特征拼接;為了對時序維度T’和骨架節點維度V調整時空權重,先站著通道維度進行最大池化;接著將個體特征通過Sigmoid運算,把所有值轉化到0到1之間,得到注意力特征,然后通過注意力特征與群體特征的點乘,使群體特征圖進行一次權重重新分配,增加重要個體行為在群體行為中的權重,同時弱化非相關個體行為在群體行為中的重要性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011419698.2/1.html,轉載請聲明來源鉆瓜專利網。





