[發明專利]一種基于改進長效遞歸深度卷積模型的人物動作識別方法有效
| 申請號: | 202010606907.8 | 申請日: | 2020-06-29 |
| 公開(公告)號: | CN111914638B | 公開(公告)日: | 2022-08-12 |
| 發明(設計)人: | 胡宸;陳志;史佳成;葉科淮;王仁杰;李玲娟;岳文靜 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V40/20;G06V10/774;G06V10/82;G06N3/04 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 徐激波 |
| 地址: | 210046 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 長效 遞歸 深度 卷積 模型 人物 動作 識別 方法 | ||
1.一種基于改進長效遞歸深度卷積模型的人物動作識別方法,其特征在于,包括如下步驟:
步驟S1、輸入一組連續堆疊的視頻幀,幀與幀之間的一組位移矢量場表示為dt(u,v),后一幀與前一幀之間的位移矢量為(u,v),并將矢量場的水平和垂直分量dx和dy作為圖像通道;
步驟S2、將輸入的視頻幀堆疊成L個連續幀的流動通道dx和dy,共形成2L個輸入通道;構造用于任意幀τ的卷積神經網絡輸入體積Iτ如下:
u=[1;w],v[1;h],k=[1;L]
其中,u為寬度分量,v代表高度分量,k代表長度分量;將基于特征編碼的時間矩陣Iτ(u,v,a)與RGB圖像組成的三維矩陣Iτ2(u,v,a)分別作為時空卷積神經網絡的輸入,其中a∈[1,2L],是對L幀中一個點進行的編碼,時間域上的神經網絡多次經過由包含方向敏感的濾波器的卷積神經網絡層,整流層和池化層迭代,其中散度,卷曲和剪切力也可以通過光流梯度進行計算,而RGB圖像組成的那部分三維矩陣只需通過正常CNN的多次卷積池化濾波層迭代,最終得到在時間上和空間上幀與幀之間的相互獨立的特征向量xt;
步驟S3、采用長效遞歸卷積神經網絡將每個視覺輸出特征向量xt通過歸一化函數φv(.)進行特征轉換,得到定長輸出特征序列x1,x2,...,xn;將輸出特征序列輸入至遞歸序列學習模塊,通過下述遞歸方程將隱藏狀態映射到輸出,進行時間動力學建模:
ht=g(Wxhxt+Whhht-1+bh)
zt=g(Whzht+bz)
其中g代表元素方向的非線性組合函數,xt代表輸入,Wxh、Whh、Whz代表遞歸神經網絡的模型參數,ht代表t時刻的隱藏狀態,ht-1代表t前一時刻的隱藏狀態,且h0=0;zt代表t時刻的輸出;對于輸出特征序列x1,x2,...,xn,可得h1,h2,…,hn和z1,z2…zn,bh代表t時刻的隱藏狀態函數的偏差值,bz代表t時刻輸出函數的偏差值;
步驟S4、將輸出特征序列x1,x2,...,xn輸入至暫態RNN組件,獲得每一時刻的暫態序列y′1,y′2,...,y′n,采用字符串Hash的方法對暫態序列y′1,y′2,...,y′n進行編碼;將暫態序列y′1,y′2,...,y′n映射成一個值y1;
步驟S5、計算暫態序列y′1,y′2,...,y′n與從y1到暫態序列y′1,y′2,...,y′n的映射的匹配程度;將Hash值轉化成二進制編碼,再將y1分別與每一個映射值的二進制編碼求漢明距離d(x,y)=∑x⊕y,將漢明距離與預設閾值D比較;當漢明距離小于預設閾值D時,匹配成功,當漢明距離大于等于預設閾值D時,匹配失敗;對暫態RNN組件進行更新,其中每一階段的更新為之前所有的輸入特征的一個總結,如下所示:
y′t=f(y′t-1,xt)
其中y′t是t時刻的輸出,xt是t時刻的輸入,y′t-1是t時刻上一階段的輸出;
步驟S6、將暫態序列y'1,y'2,...,y'n通過編碼器編碼的輸出y1放入譯碼器,譯碼器利用前面所有的輸入,獲得輸出行為序列y2,...,ym,計算出人物每個時刻最有可能的行為yt;
步驟S7、對人物每個時刻最有可能的行為yt進行極大似然估計,更新譯碼RNN組件的參數;基于輸出特征序列和行為序列的組合x1,x2,...,xt,y1,y2,...,yt-1,得到而yt的條件分布如下:
p(yt|yt-1,yt-2,...,x1,x2,...,xt)=f(ht-1,xt-1)
其中p(yt|yt-1,yt-2,…,x1,x2…,xt)為t時刻的行為yt的條件概率,f(ht-1,xt-1)為上一個時刻的組件狀態的線性組合;
步驟S8、將x1,x2,...,xt,y1,y2,...,yt-1序列合并成矩陣xk,則長效遞歸卷積神經網絡中的編碼器和譯碼器組件的學習目標是最大化yt的條件概率,即為:
其中pθ(yi|xi)為yi的條件概率;
步驟S9、在不同的訓練集上訓練長效遞歸卷積神經網絡模型,獲取每種特征行為的貢獻率;將測試集中的特征序列輸入到長效遞歸卷積神經網絡模型中,獲得每個行為yt的最大似然估計,將最大值與預先設定好的行為數據集比對,得到此時最可能的行為ft。
2.根據權利要求1所述的一種基于改進長效遞歸深度卷積模型的人物動作識別方法,其特征在于,所述步驟S4中將暫態序列y′1,y′2,...,y′n映射成一個值y1具體方法如下:
步驟S41、選取兩個較大的質數M1,M2,和一個基底Base,采用雙Hash的方法對y′1,y′2,...,y′n進行編碼,給序列中的每一位的y′i賦予兩個權值如下:
P1[i]=P1[i-1]*Base
P2[i]=P2[i-1]*Base
其中P1[i]是對輸出序列第一次Hash時的位權值,P2[i]是對輸出序列第二次Hash時的位權值;
步驟S42、構造Hash函數,遍歷暫態序列y′1,y′2,...,y′n,對每一位y′i,用以下公式構造出兩個Hash值:Hash1和Hash2;
Hash1[i]=(Hash1[i-1]*Base+y[i])%M1
Hash2[i]=(Hash2[i-1]*Base+y[i])%M2
其中M1和M2分別是之前選好的大質數,Base是選好的基底,Hash1[i]是第一次Hash時輸出序列第i位的Hash值,Hash2[i]是第二次Hash時的輸出序列第i位的Hash值;將暫態序列y′1,y′2,...,y′n映射成一個值y1,可得:
y1=Hash1[n]%M1+Hash2[n]%M2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010606907.8/1.html,轉載請聲明來源鉆瓜專利網。





