[發明專利]一種基于時空圖卷積的人體交互行為識別方法在審
| 申請號: | 202210199016.4 | 申請日: | 2022-03-02 |
| 公開(公告)號: | CN114694174A | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 夏海輪;唐志浩;馮春燕 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06K9/62;G06N3/04;G06V10/774 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 易卜 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時空 圖卷 人體 交互 行為 識別 方法 | ||
1.一種基于時空圖卷積的人體交互行為識別方法,其特征在于,具體步驟如下:
首先,用深度攝像機錄制時間T內的雙人交互視頻作為待識別樣本,并直接提取人體骨骼關鍵點三維坐標數據;將骨骼關鍵點三維坐標數據規整成形如1×M×C×T×V的張量;
其中M代表人體的數量,C為空間坐標數據的X,Y,Z三個維度,T代表視頻的長度,V代表人體骨骼關鍵點的數量;
然后、初始化由歸一化層、6層結構相同的子網絡層以及附加的全連接層順序堆疊而成的時空交互圖卷積網絡,并輸入數據張量,推理得到交互行為的類別號label;
最后、使用類別號label作為鍵查詢NTU-RGB+D 120數據集中所有類別號-行為類別名稱所組成的哈希表,查詢得到行為類別名稱。
2.如權利要求1所述的一種基于時空圖卷積的人體交互行為識別方法,其特征在于,所述雙人交互視頻,要求整段視頻中僅含一種交互行為,并自始至終僅包含兩個人,兩個人整個身體清晰可見。
3.如權利要求1所述的一種基于時空圖卷積的人體交互行為識別方法,其特征在于,所述時空交互圖卷積網絡的推理過程具體為:
步驟301、輸入數據張量經過歸一化層在M×C×V維度上完成歸一化,歸一化前后張量形狀不改變;
步驟302、將歸一化后的張量分成兩個分支,對應交互的兩人,分別為:
X1=X[:,0,:,:]
X2=X[:,1,:,:]
其中分別代表兩個人的數據,二者形狀完全相同;X[:,0,:,:]表示取張量X第1維度中下標為0的所有值的操作,同理X[:,1,:,:]表示取張量X第1維度中下標為1的所有值的操作;
步驟303、將兩人數據X1和X2同時送入6層時空圖卷積子網絡層中的當前層;
每一個子網絡層由兩個單人特征提取模塊和一個交互特征關聯模塊組成;單人特征提取模塊均包含空間圖卷積模塊GCN和時間卷積模塊TCN;當前層初始為第一層;
首先,將兩人數據X1和X2分別送入到兩個單人特征提取模塊中,各自經過GCN的空間圖卷積操作處理后輸出的張量特征分別為Y1和Y2;
表示為:
其中為輸出的張量特征,C′為經過空間圖卷積之后的通道維度數量;ReLu代表線性整流激活函數;BN代表批量歸一化函數;為歸一化之后的單人鄰接矩陣,A∈{0,1}V×V是用來描述單人人體骨骼關鍵點之間的連接關系矩陣;D是單人鄰接矩陣A的度矩陣;是動態鄰接矩陣;分別是對數據X1進行兩次1*1二維卷積操作的不同卷積權重,同理分別是對數據X2進行兩次1*1二維卷積操作的不同卷積權重;
然后,將輸出的張量特征Y1和Y2分別送入各自的TCN中,進行時間卷積操作分別輸出特征Z1和Z2;
表示為:
Z1=ReLu(BN(Y1W5))
Z2=ReLu(BN(Y2W6))
其中為輸出特征,其中T′=T/s,s為步長,W5和W6分別代表兩個不同的9*1二維卷積操作的卷積權重;
最后,將輸出特征Z1和Z2一同輸入交互特征關聯模塊進行時空特征關聯;
具體為:
首先,使用S函數對輸入特征Z1和Z2進行采樣率為r的降采樣池化操作,池化輸出張量表示為:
S1=S(Z1),S2=S(Z2)
然后,應用DTW算法計算輸出特征Z1和Z2的關聯矩陣M2→1∈{0,1}τ×τ;
M2→1=DTW(mean(S1)),mean(S2))
mean函數代表對特征在通道維度(C)和空間維度(V)上進行歸一化壓縮,壓縮之后的張量形狀為1×τ,即僅保留時間維度特征;
對于關聯矩陣M2→1中的元素mi,j(i,j=0,1,...,τ-1),當且僅當Z2i和Z1j存在關聯時mi,j=1,否則mi,j=0;
接著,張量S2與關聯矩陣M2→1相乘完成與張量S1在時間維度上的對齊;
表示為:
S2′=S2M2→1
最后,將對齊之后的特征在空間維度上拼接,進行雙人特征的空間圖卷積操作,輸出圖卷積特征Q;
表示為:
P=Concat(S1,S2′)
拼接函數Concat表示將S1和S2′在第3維度上順次拼接,拼接輸出雙人空間圖卷積使用的是歸一化之后的交互鄰接矩陣DI是度矩陣,AI∈{0,1}2V×2V用于描述交互骨骼關鍵點的連接關系;為雙人特征空間圖卷積的卷積權重,使用1*1的二維卷積實現,輸出
對上述圖卷積的輸出特征Q在空間維度拆分之后得到兩個相同形狀的張量,分別經過線性整流函數ReLu和批量歸一化函數BN之后作為交互特征關聯模塊的最終輸出Q1和Q2,表示為:
Q1=ReLu(BN(Q[:,:,:,0]))
Q2=ReLu(BN(Q[:,:,:,1]))
其中Q[:,:,:,0]表示取張量Q的第3維度中下標為0的所有值的操作,同理Q[:,:,:,1]表示取張量Q的第3維度中下標為1的所有值的操作;
步驟304、返回步驟303,將輸出的兩分量特征Q1和Q2分別作為兩人的對應數據,送入到6層時空圖卷積子網絡層的下一層中;
步驟305、重復直至完成6層的處理,最后得到的兩分量分別記為
Cout表示輸出的通道維度第1維度的大小;
Tout表示輸出的時間維度第2維度的大小;
步驟306、將兩分量R1,R2對時間維度和空間維度進行歸一化處理得到并在通道維度處拼接,依次經過全連接層、Softmax層得到推理結果;
表示為:
其中FC代表全連接層,Softmax代表Softmax層處理;為推理結果,γ是行為類別數量;
步驟307、推理結果即為對當前輸入所有可能的行為分類結果的置信度排列,找到置信度最大值所對應的行為類別標號,即為時空交互圖卷積網絡輸出的最終結果label;
表示成:
label=argmax(R)
其中argmax代表求最大值的自變量取值的函數。
4.如權利要求3所述的一種基于時空圖卷積的人體交互行為識別方法,其特征在于,所述步驟303中,交互鄰接矩陣AI的構造過程表示為:
A12描述兩個人體之間骨骼關鍵點的連接關系,包含對稱連接和鏡像連接兩個部分,對稱連接為歸屬于兩個人體的相同編號的骨骼關鍵點建立的連接,而鏡像連接為兩個人體有鏡像關系的骨骼關鍵點之間建立起連接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210199016.4/1.html,轉載請聲明來源鉆瓜專利網。





