[發明專利]一種AR系統手勢識別方法有效
| 申請號: | 201810025105.0 | 申請日: | 2018-01-11 |
| 公開(公告)號: | CN108334814B | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 付明磊;胡海霞 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 ar 系統 手勢 識別 方法 | ||
1.一種基于卷積神經網絡結合用戶習慣性行為分析的AR系統手勢識別方法,其特征在于:所述手勢識別方法包括以下步驟:
步驟1:用戶習慣性手勢圖像采集
由用戶隨機提供一組手勢,將這組手勢作為標準手勢,采集該組手勢圖像,記為標準組;根據標準組手勢模型圖,構建其對應的實際標簽類別;設置不同的標簽類別觸發相應AR系統指定功能;由用戶重復n次上述手勢,并采集所得n組手勢圖像,記為訓練樣本組;記錄用戶在AR終端實現人機交互時的N組手勢圖像,記為測試樣本組;
步驟2:手勢區域圖像檢測
分別對步驟1獲取的標準組、訓練樣本組及測試樣本組的手勢圖像進行手勢區域圖像檢測,以實現圖像中膚色與非膚色區域的分割;
步驟3:卷積神經網絡實現手勢特征識別
設計卷積神經網絡初步結構模型,用步驟1所得的樣本數據訓練并測試調整卷積神經網絡模型,將步驟2所得二值化圖像直接輸入所述卷積神經網絡;
所述步驟2中,手勢區域圖像檢測步驟包括:
2.1圖像RGB模型到HSV模型轉換
利用公式(1)實現圖像的紅R、綠G、藍B分量到色度H、飽和度S、亮度V分量轉換;
max=max(R,G,B);
min=min(R,G,B); (1)
V=max(R,G,B);
S=(max-min)/max;
2.2計算圖像的色度H分量分布
利用公式(2)計算圖像的H分量分布:
2.3實現圖像二值化分割
利用公式(3)實現圖像二值化分割,其中,Hh和Hd分別表示膚色的上、下界閾值;R表示分割后的二值化圖像;
所述卷積神經網絡由至少一個卷積層、至少一個池化層及一個輸出層構成,其中,所述卷積層完成輸入特征圖與卷積核的卷積操作,卷積核即為權值參數的矩陣,在前一層的特征圖滑動卷積核,與原圖像重疊的區域進行加權求和,加入偏置值,經激勵函數處理得到輸出特征圖的矩陣;不同輸入特征圖對應不同的卷積核;輸出神經元產生的輸出特征圖將會形成下一個卷積層的輸入特征圖;整個過程可由公式(4)表達:
l表示網絡的第幾層,K為卷積核,Mj為輸入特征圖的一個選擇,每一層有唯一的偏置B,f(x)為激活函數;
對于輸入的所述二值化特征圖,在每次前向傳播之后,經所述初步卷積神經網絡模型所得實際輸出與期望輸出存在一定的誤差;定義實際輸出與期望輸出的均方誤差和為誤差函數;設K個輸出層的期望輸出分別為dk(n),則單路輸出的均方誤差為
整個神經網絡輸出層的均方誤差為
根據誤差函數采用最速下降法調整網絡間的連接權值,每次權值調整量為
其中,0<μ<1為學習速率;
對于輸出層,其權值調整量為
輸出層權值調整公式為
其中,μ1為輸出層學習速率;
對于卷積層及池化層,其權值調整量為
卷積層及池化層權值調整公式為
其中,μ2為卷積層、池化層的學習速率;
在訓練初始階段選擇較大的學習速率,加快收斂速度;在接近收斂時,減小學習速率;避免了因為權值調整幅度過大而產生不收斂或者振蕩現象;
其學習速率的變化方式為
其中,α為加入的動量項,μ(n)為可變學習速率,誤差的變化量為
ΔE(n)=E(n+1)-E(n) (14)
ΔE(n)<0時,α=α,μ(n)=μ(n-1)m,m>1為正向學習因子;
ΔE(n)>0時,α=0,μ(n)=μ(n-1)n,n<1為負向學習因子;
由此,學習速率可根據實際情況確定,當當前誤差梯度修正方向正確,即ΔE(n)<0,則增大學習速率,即m>1同時加入動量項α;反之,則減小學習速率,即n<1,同時α=0;
損失函數的大小決定了所述卷積神經網絡模型的好壞,定義損失函數的期望值為風險函數,以度量平均狀態下網絡預測錯誤的程度;記輸入為X,預測值為f(X),實際值為Y,損失函數為f(X)和Y的非負實值函數,記作L(Y,f(X)),由于(X,Y)是隨機變量,遵循聯合分布P(X,Y),所以損失函數L(Y,f(X))的期望即風險函數為:
Rexp(f)=Ep[L(Y,f(X))]=∫L(y,f(x))P(x,y)dxdy (15)
經過所述初步的卷積神經網絡結構模型,得到一系列訓練數據集T={(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)},關于該訓練數據集得到的訓練誤差的經驗風險為:
當經驗風險達到最小,所述卷積神經網絡模型達到最優狀態;
最后,輸入訓練數據進行仿真驗證,確定網絡訓練完成;
當用戶進行AR終端人機交互時,拍攝手勢圖像,經由步驟2所述方法處理圖片,將圖片傳入訓練好的卷積神經網絡,得到該圖片對應標準手勢類別,觸發該手勢對應指定功能;
用戶在不斷使用手勢進行人機交互同時,記錄并保存手勢圖像,以作為網絡訓練的樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810025105.0/1.html,轉載請聲明來源鉆瓜專利網。





