[發明專利]一種基于遞歸神經網絡的群體動作識別方法有效
| 申請號: | 201810971833.0 | 申請日: | 2018-08-24 |
| 公開(公告)號: | CN109446872B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 舒祥波;嚴銳;唐金輝 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/82;G06V10/80;G06V10/764;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 朱寶慶 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遞歸 神經網絡 群體 動作 識別 方法 | ||
1.一種基于遞歸神經網絡的群體動作識別方法,其特征在于,包括以下步驟:
步驟1,輸入待檢測的視頻片段,取其中間T幀,并檢測每幀中所有運動個體;
步驟2,在每一個時刻,用卷積神經網絡提取所有運動個體的空間特征;
步驟3,建立Single-Person LSTM模型,將個體空間特征提供給Single-Person LSTM模型以捕捉個體時間動態特征;
步驟4,根據個體在整個活動過程中移動時間的順序,將所有個體的時空特征輸送到Interaction Bi-LSTM中以捕獲上下文信息;
步驟5,將Interaction Bi-LSTM中的所有隱藏狀態賦以動態權值,最終集成至一個Aggregation LSTM中,并將多組的聚合狀態連接成對應時刻softmax層的輸入;
步驟6,對所有時刻下的softmax分數取平均值作為群體活動識別的最終預測概率向量;
步驟3中的Single-Person LSTM模型為
其中,i為輸入門控,f為忘記門控,o為輸出門,g為輸入調制門,c為存儲單元,W*x和W*h為權重矩陣,b*是偏置向量,表示逐元素相乘,為激活函數;ht是一個隱藏的狀態,它包含了個體在t時刻的動態特征;
步驟4中個體在整個活動過程中移動時間的長短通過個體全程動作強度來體現,全程動作強度越強時間越長,全程動作強度通過以下過程獲得:
步驟S401,將連續T幀的每一像素點的水平、垂直位移向量疊加在一起
其中,i=1,2,...,T,和分別表示點(u,v)處的水平和垂直位移向量u=1,2,...,w,v=1,2,...,h,圖像的分辨率為w×h;
步驟S402,獲得第k個人在點(u,v)處的T幀連續運動信息SFk(u,v,c),c=1,···,2T;
步驟S403,獲得第k個人的動作強度和全程動作強度:
其中,表示第k個人在t時刻的動作強度,MIk表示第k個人全程動作強度;
步驟4中將所有個體的時空特征輸送到Interaction Bi-LSTM中以捕獲上下文信息的具體過程為:
Interaction Bi-LSTM單元計算前向反饋序列和后向反饋序列分別從k=K→1和k=1→K兩個方向迭代K個人,輸出序列可表示為:
其中,k=1,2,···,K,H(*)由步驟3中LSTM的定義實現,和分別是權重矩陣,b*是偏置向量,◇表示采樣操作;
步驟5的具體過程為:
步驟S501,構建Aggregation LSTM單元,將K個人的整個群體活動分為Ng個組進行識別,其中g=1,2,...,Ng,第g組個體的起始索引Sg和結束索引Eg定義為
Sg=(g-1)·K/Ng+1
Eg=g·K/Ng
步驟S502,對于視頻片段中的第g組群體的第k個體,通過學習一個權重因子來控制個體在t時刻的Interaction LSTM的輸出狀態以捕捉第g組中的每個人在t時刻的潛在表示
其中Whe是權重參數矩陣,be是偏向量,exp(*)是指數函數;
步驟S503,Aggregation LSTM單元接受前一時刻隱層數據和當前時刻的
其中,Ztg是第g個子組在t時刻的特征表示;
步驟S504,獲得整個活動的表示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810971833.0/1.html,轉載請聲明來源鉆瓜專利網。





