[發明專利]基于混合神經網絡的手勢動作識別互動系統及方法有效
| 申請號: | 202110361015.0 | 申請日: | 2021-04-02 |
| 公開(公告)號: | CN113052112B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 王立軍;于霄洋;李爭平 | 申請(專利權)人: | 北方工業大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/82;G06V10/778;G06V10/764;G06N3/045;G06N3/08;G06N3/0464;G06N3/044 |
| 代理公司: | 鹽城亭遠專利代理事務所(普通合伙) 32486 | 代理人: | 郭超 |
| 地址: | 100000 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 混合 神經網絡 手勢 動作 識別 互動 系統 方法 | ||
1.基于3D?CNN和RNN混合神經網絡的投影手勢動作識別方法,其特征在于,包括如下步驟:
步驟一,圖像視頻數據集采集
采用深度相機采集手部數據,創建數據集;
在模型輸入時將RGB三通道的模型輸入,轉換為了RGB+HSV六通道的模型輸入,HSV分別代表色調、飽和度、明度,其表達式如下:
max?=?max(R/255,G/255,B/255)?(1)
min?=?min(R/255,G/255,B/255)?(2)
(3)
(4)
V?=?max?(5)
其中R、G、B為每幀圖像的紅綠藍分量數值;
步驟二,采用三維卷積神經網絡對手勢動作數據集中的視頻數據進行視頻學習,輸出圖像特征;
其中,三維卷積神經網絡進行如下操作:
三維卷積神經網絡對視頻進行幀抽樣,每秒抽取7幀圖像作為網絡輸入;其中每幀提取5個通道信息,gray、gradient-x、gradient-y這三個通道的信息直接對每幀分別操作獲取,optflow-x、optflow-y兩個通道的信息則需要利用兩幀的信息提??;
以上一層的輸出作為輸入,對輸入5個通道信息分別使用大小為7*7*3的3D卷積核進行卷積操作,這一層采用了兩種不同的3D卷積核;
進行max?pooling操作,降采樣之后的特征maps數量保持不變;
對之前分的兩組特征maps分別采用7*6*3的卷積核進行操作,同樣為了增加特征maps的數量,3D?CNN采用了三種不同的卷積核分別對兩組特征map進行卷積操作;
進行采樣工作,對每個特征maps采用3*3的核進行降采樣操作,對每個特征maps采用7*4的2D卷積核進行卷積操作;
步驟三,采用遞歸神經網絡對步驟二輸出的圖像特征進行循環訓練,最終輸出手勢動作識別結果。
2.根據權利要求1所述的基于3D?CNN和RNN混合神經網絡的投影手勢動作識別方法,其特征在于,所述步驟一包括如下子步驟:
1)使用深度相機在每一個手勢場景都拍攝深度視頻、彩色視頻、紅外視頻各10段,數據集預設10個手勢操作,分別為:手勢A、手勢B、手勢C、手勢D、手勢E、手勢F、手勢G、手勢H、手勢I、手勢J;
2)調節這些視頻大小使其保持統一大??;
3)將上一步中得到的視頻放入不同的文件夾中,生成手勢標簽文件;
4)將這些文件夾進行整合,完成數據集的創建。
3.基于3D?CNN和RNN混合神經網絡的投影手勢動作識別系統,其特征在于,用于實現權利要求1-2任意一項所述的基于3D?CNN和RNN混合神經網絡的投影手勢動作識別方法,包括圖像視頻數據集采集模塊、三維卷積神經網絡、遞歸神經網絡;其中,圖像視頻數據集采集模塊用于采用深度相機采集手部數據;三維卷積神經網絡用于對數據集中的視頻數據進行視頻學習輸出圖像特征;遞歸神經網絡用于對三維卷積神經網絡輸出的圖像特征進行循環訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北方工業大學,未經北方工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361015.0/1.html,轉載請聲明來源鉆瓜專利網。





