[發(fā)明專利]基于動態(tài)時空卷積的動態(tài)手勢識別方法在審
| 申請?zhí)枺?/td> | 202310230599.7 | 申請日: | 2023-03-11 |
| 公開(公告)號: | CN116563938A | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計)人: | 常紹鵬;黃學(xué)雨;劉耀坤;向軍臣 | 申請(專利權(quán))人: | 江西理工大學(xué);常紹鵬 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/26;G06V20/70;G06V10/774;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 341099 江*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 動態(tài) 時空 卷積 手勢 識別 方法 | ||
本發(fā)明提供一種基于動態(tài)時空卷積的動態(tài)手勢識別方法。基于動態(tài)時空卷積的動態(tài)手勢識別方法包括如下步驟:獲取包含動態(tài)手勢的數(shù)據(jù)集;數(shù)據(jù)集幀采樣;劃分?jǐn)?shù)據(jù)集;構(gòu)建動態(tài)時空建模模塊;構(gòu)建基于動態(tài)時空卷積的手勢識別模型;訓(xùn)練基于動態(tài)時空卷積的動態(tài)手勢識別模型;使用訓(xùn)練得到的模型用于動態(tài)手勢的識別。本發(fā)明采用基于動態(tài)時空卷積的模型對動態(tài)手勢進(jìn)行識別,通過在2D卷積網(wǎng)絡(luò)上增加具有動態(tài)時間建模模塊的方式避免了使用3D卷積計算量過高的問題,本發(fā)明提出的動態(tài)時間建模模塊采用動態(tài)卷積的方式對完整動作提取時序信息進(jìn)行建模,同時增加的計算成本很小卻可以大幅提高識別準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺中的手勢識別領(lǐng)域,涉及一種動態(tài)手勢識別模型的搭建方法和動態(tài)手勢識別方法。
背景技術(shù)
動態(tài)手勢作為一種自然的交互方式,在虛擬現(xiàn)實、汽車用戶界面、智能家居等領(lǐng)域具有非常重要的意義。基于視覺的手勢識別技術(shù)因其使用的攝像頭易于獲取且無需佩戴額外設(shè)備的優(yōu)勢,是手勢識別研究的重點。隨著深度學(xué)習(xí)的發(fā)展基于深度學(xué)習(xí)的方法已成為當(dāng)前手勢識別領(lǐng)域的主流方法。
基于深度學(xué)習(xí)的動態(tài)手勢識別方法有多種,其中一些方法采用?2?維卷積來提取手勢的時空特征。例如,Simonyan?等人提出的雙流網(wǎng)絡(luò)(Two-Stream),該網(wǎng)絡(luò)將?RGB?圖像和光流信息作為輸入,利用?2?維卷積分別學(xué)習(xí)空間特征和運動特征。L.Wang?等人提出的時域分割網(wǎng)絡(luò)(TSN),將每個視頻段分割為多個片段,并使用雙流網(wǎng)絡(luò)提取每個片段的時空特征,最后將特征融合得到預(yù)測結(jié)果,但光流的抽取需要較高的計算成本難以用于實時檢測。基于視覺的動態(tài)手勢識別通常采用視頻數(shù)據(jù),因此有研究者嘗試采用?3?維卷積提取視頻的時間和空間信息。Du?Tran?等人使用?3×3×3?的小卷積核構(gòu)建?C3D?模型,性能超過了當(dāng)時?2D?卷積結(jié)構(gòu)。雖然基于?3D?卷積的模型可以直接處理視頻數(shù)據(jù),但由于?3D?卷積比2D?卷積多了一個維度,計算成本也呈指數(shù)增加。
以上方法中,基于2D卷積的方法時空特征提取不足,存在準(zhǔn)確度低的缺點;基于3D?卷積方法參數(shù)量過大,在實際應(yīng)用中存在實時性差的缺點;因此使用在2D卷積網(wǎng)絡(luò)中插入時空建模模塊的方式是一種平衡計算成本和準(zhǔn)確度的方法。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明提供了一種基于2D卷積的動態(tài)手勢識別模型的搭建方法,包括以下步驟:
步驟1,獲取動態(tài)手勢視頻數(shù)據(jù)集,在不同的背景下拍攝不同人的的不同手勢;
步驟2,對步驟1種獲取的數(shù)據(jù)集進(jìn)行預(yù)處理;首先將視頻處理為一幀一幀的圖像序列,并通過裁剪將圖像調(diào)整為固定大小,然后對數(shù)據(jù)集進(jìn)行標(biāo)注,需要標(biāo)注手勢動作的開始幀、結(jié)束幀和所屬類別,最后將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集、測試集;
步驟3,構(gòu)建具有動態(tài)時空建模能力的即插即用模塊,首先對考慮全局時序信息,構(gòu)建長期時序聚合模塊LAM,然后考慮短期運動信息,構(gòu)建運動特征激勵模塊ME,最后將長期時序聚合模塊和短句運動激勵模塊組合得到具有時空建模能力的即插即用模塊LAMME;
具體的來說,長期時序建模模塊LAM包括全局時序信息累加和全局時序信息動態(tài)聚合,所述全局時序累加,首先使用全局平均池化將輸入特征圖壓縮,然后使用一維卷積抽取全局時間信息,最后包含全局時序信息的特征圖和原特征圖累加得到包含全局時序信息的特征圖;所述全局時序信息聚合,首先使用全局平均池化將特征圖壓縮,然后使用兩個全連接層對全局時序信息動態(tài)編碼后使用softmax歸一化得到動態(tài)卷積權(quán)重,最后使用2D卷積的方式在經(jīng)過全局時序累加后的特征圖上聚合全局時序信息;
具體的來說,所述運動信息激勵,首先使用1×1的2維卷積壓縮通道數(shù),然后使用相鄰幀之間的特征圖相減來模擬運動信息,然后使用1×1的2維卷積還原通道數(shù),接下來使用sigmoid函數(shù)計算運動敏感權(quán)重,然后使用得到的運動敏感權(quán)重乘原輸入特征圖得到經(jīng)過運動激勵后的特征圖;
所述長期時序建模模塊和運動激勵模塊的組合,是將長期時序建模模塊和運動激勵模塊串聯(lián)得到的組合模塊,輸入的特征圖經(jīng)過組合模塊后特征圖就包含了長期時序信息和運動信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江西理工大學(xué);常紹鵬,未經(jīng)江西理工大學(xué);常紹鵬許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310230599.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種時空地理大數(shù)據(jù)的檢索方法及系統(tǒng)
- 一種泛知識化時空對象表達(dá)數(shù)據(jù)庫建立方法
- 一種基于時空密度波與同步的大型時空數(shù)據(jù)聚類算法GRIDWAVE
- 時空數(shù)據(jù)的存儲方法、查詢方法及存儲裝置、查詢裝置
- 一種云環(huán)境下時空索引的構(gòu)建方法、裝置及電子設(shè)備
- 面向工業(yè)4.0的時空大數(shù)據(jù)分布式存儲檢索方法及系統(tǒng)
- 一種數(shù)據(jù)比對碰撞方法和裝置
- 時空數(shù)據(jù)的異常檢測方法、裝置、電子設(shè)備和存儲介質(zhì)
- 一種可直接捕獲時空相關(guān)性的時空數(shù)據(jù)預(yù)測方法
- 多維時空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲介質(zhì)
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)





