[發明專利]基于稀疏編碼的加速魯棒特征雙模態手勢意圖理解方法有效
| 申請號: | 201811158919.8 | 申請日: | 2018-09-30 |
| 公開(公告)號: | CN109409246B | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 陳略峰;吳敏;馮雨;蘇婉娟 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06T7/194;G06T7/50 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 孫妮 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 稀疏 編碼 加速 特征 雙模 手勢 意圖 理解 方法 | ||
1.一種基于稀疏編碼的加速魯棒特征雙模態手勢意圖理解方法,其特征在于,包括以下步驟:
S1獲取同步的深度手勢圖像和RGB手勢圖像,所述手勢屬于預設的C種手勢之一,對深度手勢圖像進行前景圖像提取得到第一前景圖像,對RGB手勢圖像進行前景圖像提取得到第二前景圖像,其中:
所述深度手勢圖像的深度數據包括用戶索引,所述深度數據由16位二進制數字組成,其中高13位表示用戶與獲取深度手勢圖像數據的設備之間的距離,低3位是用戶索引,低三位從000到110,分別代表背景,用戶1至用戶6,所述深度手勢圖像的前景圖像提取方法為:
S101讀取所述深度手勢圖像上各點的16位深度數據表示為DepthID,判斷其低三位USHORTplayer=DepthID0x07是否為0;
S102若USHORTplayer為0,則該點為背景點,深度數據置為0;
S103若USHORTplayer不為0,則該點為前景點,保留該點深度數據;
S104遍歷所述深度手勢圖像的任何一點,重復步驟S101~S103,完成所述深度手勢圖像的前景圖像提取,得到所述第一前景圖像;
所述RGB手勢圖像通過迭代閾值方法實現前景圖像分割,依據圖像灰度值T進行分割,T不斷迭代,當T不再變化時即為最終分割的閾值,具體方法如下:
S1.1計算出所述RGB手勢圖像的最大灰度值Zmax和最小灰度值Zmin,令初始閾值為
S1.2根據閾值T0將所述RGB手勢圖像分割成前景圖像和背景圖像,計算出前景圖像的平均灰度值Z0、背景圖像的平均灰度值Zb和新的閾值
S1.3使用T1迭代步驟S1.2中的T0,多次重復步驟S1.2,直到T1=T0,得到的前景圖像即為所述第二前景圖像;
S2使用SURF算法對第一前景圖像進行特征提取,對提取的特征進行稀疏編碼,并使用多類線性SVM分類算法得到每種預設手勢的第一hinge損失函數,其中:
使用加速魯棒特征算法對第一前景圖像進行特征提取的具體方法為:
S201構造Hessian矩陣和尺度空間表示,
通過計算下式構造Hessian矩陣,并用積分圖像代替卷積來簡化計算過程:
其中σ表示所述第一前景圖像中點(x,y)的尺度參數,Lxx(x,σ)是高斯二階微分在點x處與第一前景圖像I的卷積,積分圖像計算公式:
I∑(x,y)為圖像上點(i,j)的積分圖像值,積分圖像是對高斯卷積運算的簡化,采用盒子濾波器近似計算Hessian矩陣的行列式:
Det(H)=Lxx*Lyy-(Lxy)2≈DxxDyy-(0.9Dxy)2
S202確定特征點及其主方向,使用非極大值抑制來初始確定特征點并通過插值精確定位特征點,然后計算特征點附近的Harr小波響應值的dx,dy以及每個特征點的角度,并選擇最大響應角度為主方向;
S203生成特征描述子,在所述第一前景圖像上選取50個特征點,對于要選擇的每個特征點,選擇長度為20s的區域,s是特征點的比例,并根據主方向旋轉,然后將該區域劃分為4×4=16個子區域,計算Haar小波在水平和垂直方向上的響應計算,并統計每個子區域中的以下4個值[∑dx,∑dy,∑|dx|,∑|dy|],得到16×4=64維的SURF特征,這50個點的SURF特征構成所述第一前景圖像的特征描述符X0;
對提取的特征進行稀疏編碼的方法具體為:
S2.1訓練階段,使用預設的訓練圖像特征X=[X1,X2,...,Xn]、訓練基向量字典及稀疏表示系數α優化目標函數,其中X是D維特征空間中的一組SURF特征描述符,目標函數為:
其中λ為正則化參數,S(ai)是稀疏代價函數S(.)是稀疏代價函數,λ=0.15,S(ai)為L1范數代價函數或對數代價函數
按照如下方法優化訓練:
步驟a:首先固定φi,調整αi,使得目標函數最小,
步驟b:然后固定αi,調整φi,使得目標函數最小,
步驟c:多次重復步驟a和b,迭代改變φi及αi直至收斂,得到特征描述符X進行稀疏編碼結果α=[α1,α2,...,αn];
使用多類線性SVM分類算法得到每種預設手勢的第一hinge損失函數的具體步驟為:
S2.2構造最大池函數,在特征描述符X進行稀疏編碼的結果α每列定義以下池函數:
z=F(φ)
zj=max{|α1j|,|α2j|,...,|αMj|}
其中F(φ)為稀疏碼的最大池函數,z為池化特征,zj是z的第j個元素,αij是稀疏編碼結果α的第i行和第j列的矩陣元素,M是特征描述符X0包括的SURF特征的數量;
S2.3利用zj構造線性核函數如下:
其中為圖像特征點(s,t)在l層的稀疏編碼最大池函數;
S2.4構造線性SVM的決策函數f(z)
使用訓練集通過一對所有策略訓練C個線性SVM,每個SVM的優化目標為:
分別得到每種預設手勢的第一hinge損失函數
S3使用SURF算法對第二前景圖像進行特征提取,對提取的特征進行稀疏編碼,并使用多類線性SVM分類算法得到每種預設手勢的第二hinge損失函數,所使用的方法與所述步驟S2完全相同;
S4使用D-S證據理論方法分別對每種預設手勢的第一hinge損失函數和第二hinge損失函數進行決策融合得到識別結果,具體方法為:
S4.1分別使用每個第一hinge損失函數構造定義識別框架Θ上的基本概率分配為:
其中Θ=[H11,H12,…,H1C],其中H1j的手勢類別為j,j∈{1,2,...C},0β1為控制參數,φj為滿足以下條件的遞減函數:
φj(0)=0
S4.2根據D-S證據理論分別計算C個手勢類別的mass函數mg1(H1j),得到包括C個mass函數的第一全局BPA,mass函數的計算方法如下:
其中:
S4.3對于C個hinge損失函數重復步驟S4.1和4.2,得到包括C個mass函數mg2(H2j)的第二全局BPA;
S4.4由所述第一全局BPA和所述第二全局BPA,計算出組合mass函數Mj(A),計算方法如下:
S4.5篩選出C個組合mass函數Mj(A)的最大值MAX(Mj(A)),確定第j種手勢為識別結果。
2.如權利要求1所述的基于稀疏編碼的加速魯棒特征雙模態手勢意圖理解方法,其特征在于:所述深度手勢圖像通過Kinect設備獲取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811158919.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:身份核驗方法、系統、電子設備和存儲介質
- 下一篇:交通標志識別方法和裝置





