[發明專利]一種基于3D卷積神經網絡的動態手勢識別方法在審
| 申請號: | 202111467938.0 | 申請日: | 2021-12-03 |
| 公開(公告)號: | CN114155604A | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 劉杰;王月;王鵬 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 動態 手勢 識別 方法 | ||
1.一種基于3D卷積神經網絡的動態手勢識別方法,其特征在于:所述方法通過以下步驟實現:
(1)對公開的動態手勢數據集進行預處理:
(1-1)幀截取:對公開動態手勢數據集的每一個動作視頻以原始的幀速率進行幀采樣,確保一個動作視頻提取出的動作圖像不少于16幀;
(1-2)數據標定:動態手勢數據集的動作一共為N類,標簽分別標記為1到N,動態手勢視頻一共有M個;其中M1個視頻進行幀提取后的動作圖像作為訓練數據,剩余的M2個視頻進行幀提取后的動作圖像作為測試數據;
(1-3)圖像裁剪與數據增強:將尺寸不一的動作圖像統一裁剪成尺寸為112X112的圖像,然后進行隨機水平或垂直翻轉,將動作圖像的RGB數據進行平均歸一化;
(2)將R(2+1)D-18網絡增加跳殘差結構:
增加跳殘差結構:R(2+1)D-18網絡結構包括一個時空卷積層,四個殘差層,一個平均池化層以及一個全連接層,其中,每個殘差層包含兩個殘差塊,每個殘差塊包含兩個時空卷積層;將以上結構中的第一個時空卷積層和第三個殘差層之間增加一個跳殘差結構;
(3)將R(2+1)D-18網絡提取的淺層特征與深層特征相融合:
(3-1)提取第一個殘差層的特征:在R(2+1)D-18網絡中的第一個殘差層后新增一個分支,連接一個時空卷積層,一個批歸一化層,一個平均池化層,一個全連接層,提取淺層特征;
(3-2)提取第二個殘差層的特征:在R(2+1)D-18網絡中的第二個殘差層后新增一個分支,連接一個時空卷積層,一個批歸一化層,一個平均池化層,一個全連接層,提取淺層特征;
(3-3)將淺層特征與深層特征融合:將上述第一個殘差層后新增分支中的全連接層的輸出特征與第二個殘差層后新增分支中的全連接層的輸出特征與原R(2+1)D-18網絡中的全連接層的輸出特征進行加權融合;
(4)對改造后的R(2+1)D-18網絡進行訓練和測試:
對動態手勢數據集進行訓練,剖析整個網絡訓練的損失函數,若不收斂則不斷迭代更新網絡參數調整網絡結構,重新對網絡進行訓練,若整個網絡趨于收斂則得到改造的R(2+1)D-18動態手勢識別網絡模型,對動態手勢識別網絡模型進行測試,得到分類的準確率,通過比較和評價得到動態手勢的分類結果,實現對動態手勢的分類,最后進行分析和總結。
2.根據權利要求1所述一種基于3D卷積神經網絡的動態手勢識別方法,其特征在于:將R(2+1)D-18網絡增加跳殘差結構,將R(2+1)D-18網絡提取的淺層特征與深層特征相融合,將動態手勢數據集中的圖像輸入到網絡模型中,一個訓練批次送入16幀手勢動作圖像,改造的R(2+1)D-18網絡將淺層特征與深層特征融合,最后經過softmax分類器處理后,得到動態手勢的相對概率,預測動態手勢。
3.根據權利要求1所述一種基于3D卷積神經網絡的動態手勢識別方法,其特征在于:所述網絡結構為:在原R(2+1)D-18網絡中增加跳殘差結構,Input(3,16,112,112)層連接SpatioTemporalConv(64,16,56,56)層,SpatioTemporalConv(64,16,56,56)層連接ResLayer1(64,16,56,56)層,ResLayer1(64,16,56,56)層連接ResLayer2(128,8,28,28)層,ResLayer2(128,8,28,28)層連接ResLayer3(256,4,14,14)層,ResLayer3(256,4,14,14)層連接ResLayer4(512,2,7,7)層,ResLayer4(512,2,7,7)層連接AdaptiveAvgPool3d(512,1,1,1)層,AdaptiveAvgPool3d(512,1,1,1)層連接Linear(512,num_classes)層,num_classes為手勢動作的種類數;其中在SpatioTemporalConv(64,16,56,56)層之后添加一個跳殘差結構,跳殘差結構包括:SpatioTemporalConv(512,2,7,7)和BatchNorm3d(512,2,7,7)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111467938.0/1.html,轉載請聲明來源鉆瓜專利網。





