[發明專利]一種基于混合深度學習模型的動態手勢識別方法有效
| 申請號: | 201710120922.X | 申請日: | 2017-03-02 |
| 公開(公告)號: | CN106991372B | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 施云惠;淮華瑞;李敬華;王立春;孔德慧;尹寶才 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 深度 學習 模型 動態 手勢 識別 方法 | ||
1.一種基于混合深度學習模型的動態手勢識別方法,其特征在于,包括以下步驟:
訓練階段:
1.1、針對輸入的動態手勢視頻,首先基于Canny邊緣檢測進行去光照預處理;
1.2、基于全部視頻所包含的預處理后的手勢靜態圖像訓練CNN模型;
1.3、定義訓練數據中每個手勢動作視頻用T幀描述,接著將預處理好的手勢視頻T幀序列圖像逐一地輸入到CNN中,提取視頻序列每一幀的特征;
1.4、假定基于CNN提取的每一幀圖像的特征為M維,對每個待識別的手勢動作視頻單元,按時間順序逐行順次排列這些圖像幀特征,這樣,一個視頻動作的特征可以表示為T行M列的矩陣形式;
1.5、將大小為TxM的視頻特征輸入到MVRBM模型中進行訓練,通過不斷的調整參數訓練出最優的MVRBM模型;
1.6、此時所有的預訓練階段已經結束,接下來建模NNet,NNet的輸入和隱層節點數對應MVRBM的輸入和輸出矩陣的向量化的維度,MVRBM模型的權重參數作為NNet網絡的輸入到隱層權重參數的初始值,MVRBM的輸入向量化作為NNet的輸入,然后通過反向傳播算法不斷調節NNet網絡參數使得手勢識別的誤差最小;
測試階段:
2.1、同樣地,與訓練階段(1.1)(1.2)(1.3)步驟一樣,對測試數據進行處理,即對每個T幀的視頻序列,提取每一幀M維的特征;
2.2、依次串聯每個視頻序列中的所有幀的特征,得到維度為T*M大小的向量,這樣,每個視頻數據都可以用T*M大小的向量特征表示;
2.3、將(2.2)中向量作為訓練好的NNet網絡的輸入,進行測試及分類。
2.如權利要求1所述的基于混合深度學習模型的動態手勢識別方法,其特征在于,基于矩陣變量玻爾茲曼機(MVRBM)的時空建模過程如下:
首先定義了MVRBM相應的能量函數:
其中,V=[vij]是二進制可見層矩陣變量,對應20×64的手勢時空二維表示,H=[hkl]是二進制隱藏層矩陣變量,對應提取出的手勢時空特征,假設獨立變量vij和hkl從{0,1}中取值;Θ={ω,B,C}為模型參數變量,權重ω=[wijkl]是連接二進制可見層矩陣變量V和隱藏層H的四階張量參數,B=[bij]和C=[Ckl]分別是可見層和隱藏層的偏置矩陣;
為了減少自由參數的數量和節省計算復雜度,假定可見層單元和隱藏層單元的連接權值有如下關系:wijkl=xkiylj,通過兩個新的矩陣X=[xki]∈RK×I和Y=[ylj]∈RL×J,可以把能量函數(1)改寫為如下形式,
E(V,H;θ)=-tr(XTHYVT)-tr(VTB)-tr(HTC) (2)
其中,矩陣X和Y共同定義了二進制可見層矩陣變量V和隱含矩陣H的連接權,這樣,Θ中的自由參數減少為I×K+K×L+L×J+J×I個,基于公式(2),V和H的聯合分布概率為:
其中,Θ表示所有的模型參數X,Y,B和C,歸一化常量Z(Θ)定義為:
Z(Θ)=∑X∈x,Y∈yexp{-E(X,Y;Θ)} (4)
假定手勢圖像樣本集D={E1,...,EN},根據公式(3)樣本集D的對數似然函數為:
MVRBM的具體訓練過程如下:
(1.1)、定義矩陣型訓練手勢圖像樣本集D={E1,...,EN},最大迭代次數Z,動量系數γ,學習率α,權值正則項β,每組訓練樣本數,CD算法K步;
(1.2)、隨機初始化模型參數變量X和Y,令偏置變量B=C=0,隨機梯度ΔX=ΔY=ΔB=ΔC=0;
(1.3)、迭代步數z=1→Z進行;
(1.4)、隨機將D={E1,...,EN}分成M組D1...DM,大小為b;
(1.5)、組m=1→M進行;
(1.6)、對所有手勢圖像樣本數據在當前模型參數下進行吉布斯采樣V(0)=v∈Dm;
(1.7)、k=0→K-1進行;
(1.8)根據公式(5)對手勢圖像樣本H(k)進行采樣
(1.9)根據公式(6)對手勢圖像樣本V(k)進行采樣
(1.10)根據公式(7)進行梯度的更新
(1.11)根據公式θ=θ+Δθ更新模型參數θ∈Θ;
(1.12)結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710120922.X/1.html,轉載請聲明來源鉆瓜專利網。





