[發(fā)明專利]基于動態(tài)時空卷積的動態(tài)手勢識別方法在審
| 申請?zhí)枺?/td> | 202310230599.7 | 申請日: | 2023-03-11 |
| 公開(公告)號: | CN116563938A | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計(jì))人: | 常紹鵬;黃學(xué)雨;劉耀坤;向軍臣 | 申請(專利權(quán))人: | 江西理工大學(xué);常紹鵬 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/26;G06V20/70;G06V10/774;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 341099 江*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 動態(tài) 時空 卷積 手勢 識別 方法 | ||
1.一種動態(tài)手勢識別模型的構(gòu)建方法,其特征在于,包括以下步驟:
S1:獲取動態(tài)手勢視頻數(shù)據(jù)集收集在不同背景下不同人的不同手勢的視頻;
S2:數(shù)據(jù)集幀采樣對?S1中獲取的數(shù)據(jù)集進(jìn)行預(yù)處理,首先將視頻處理為一幀一幀的圖像,然后通過裁剪將圖像調(diào)整為固定大小,接下來對數(shù)據(jù)集進(jìn)行標(biāo)注,需要標(biāo)注手勢動作的開始幀、結(jié)束幀和所屬手勢類別;
S3:數(shù)據(jù)集劃分將數(shù)據(jù)集按?3:1:1的比例劃分為訓(xùn)練集、驗(yàn)證集、測試集;
S4:構(gòu)建具有時空建模能力的動態(tài)時空建模模塊構(gòu)建具有時空建模能力的模塊,首先先考慮長期時序信息,由構(gòu)建長期時序聚合模塊?LAM,使用全局池化壓縮特征圖,然后使用一維卷積提取全局特征信息,將提取的全局特征信息和原始特征圖進(jìn)行累加,使用兩個全連接層對全局信息進(jìn)行動態(tài)編碼,使用?softmax歸一化生成卷積權(quán)重,使用生成的卷積權(quán)重進(jìn)行卷積聚合長期時序信息;然后考慮運(yùn)動信息,構(gòu)建運(yùn)動激勵模塊?ME,使用特征圖之間的差模擬運(yùn)動信息,然后使用?sigmoid歸一化生成激勵權(quán)重,使用激勵權(quán)重和原特征圖相乘獲得經(jīng)過運(yùn)動激勵后特征圖;接下來將?LAM模塊和?ME組合起來構(gòu)成具有時空建模能力的?LAMME模塊;
S5:構(gòu)建基于動態(tài)時空卷積的動態(tài)手勢識別模型采用?Resnet50網(wǎng)絡(luò)作為原始網(wǎng)絡(luò),Resent50網(wǎng)絡(luò)包括?1個預(yù)處理層、4個?Block、1個平均池化層、1個全連接層和?1個softmax?層,將?S4中構(gòu)建的?LAMME模塊插入到每個?Block的?1×1卷積后,得到?LAMME-Net網(wǎng)絡(luò)模型;
S6:訓(xùn)練基于動態(tài)時空卷積的動態(tài)手勢識別模型將?S2和?S3中經(jīng)過預(yù)處理后的訓(xùn)練集和驗(yàn)證集輸入到?S5中構(gòu)建的?LAMME-Net網(wǎng)絡(luò)模型中,首先使用?ImageNet預(yù)訓(xùn)練權(quán)重進(jìn)行參數(shù)初始化,將輸入的圖像序列進(jìn)行下采樣,每個視頻片段取?T?幀作為輸入,將輸入的圖像分辨率調(diào)整為?224×224,網(wǎng)絡(luò)的最終的輸入為N×T×3×224×224,其中?N為訓(xùn)練批次大小,T為采樣幀數(shù);對?LAMME-Net網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,使用學(xué)習(xí)率多級下降策略提高訓(xùn)練得到的模型性能,保存驗(yàn)證集準(zhǔn)確率最高的模型為最終的測試模型;
S7:動態(tài)手勢識別,使用?S6中得到的模型進(jìn)行動態(tài)手勢識別,可分為離線動態(tài)手勢識別和實(shí)時動態(tài)手勢識別。其中離線動態(tài)手勢識別將視頻抽取為圖像序列,然后輸入到動態(tài)手勢識別網(wǎng)絡(luò)中,最后輸出識別結(jié)果;實(shí)時手勢識別獲取動態(tài)手勢視頻流,每隔?S幀將圖像幀存入緩沖區(qū),然后將緩沖區(qū)內(nèi)的圖像序列輸入到動態(tài)手勢識別模型中,最后輸出識別結(jié)果。
2.如權(quán)利要求?1所示的一種動態(tài)手勢識別網(wǎng)絡(luò)模型的搭建方法,其特征在于:所述長期時序建模模塊?LAM包括全局時序信息累加和全局時序信息動態(tài)聚合;所述全局時序累加,首先使用全局平均池化將輸入特征圖壓縮,然后使用一維卷積抽取全局時間信息,最后包含全局時序信息的特征圖和原特征圖累加得到包含全局時序信息的特征圖;所述全局時序信息動態(tài)聚合,首先使用全局平均池化將特征圖壓縮,然后使用兩個全連接層對全局時序信息編碼后使用?softmax歸一化得到動態(tài)卷積權(quán)重,最后使用?2D卷積的方式在經(jīng)過全局時序累加后的特征圖上聚合全局時序信息。
3.如權(quán)利要求?1所示的一種動態(tài)手勢識別網(wǎng)絡(luò)模型的搭建方法,其特征在于所述運(yùn)動信息激勵,首先使用?1×1的?2維卷積壓縮通道數(shù),然后使用相鄰幀之間的特征圖相減來模擬運(yùn)動信息,然后使用?1×1的?2維卷積還原通道數(shù),接下來使用?sigmoid函數(shù)計(jì)算運(yùn)動敏感權(quán)重,然后使用得到的運(yùn)動敏感權(quán)重乘原輸入特征圖得到經(jīng)過運(yùn)動激勵后的特征圖;所述長期時序建模模塊和運(yùn)動激勵模塊的組合,是將長期時序建模模塊和運(yùn)動激勵模塊串聯(lián)得到的組合模塊,輸入的特征圖經(jīng)過組合模塊后特征圖就包含了長期時序信息和運(yùn)動信息。
4.如權(quán)利要求?1所述的一種動態(tài)手勢識別模型的構(gòu)建方法,其特征在于使用全局平均池化和一維卷積累加增強(qiáng)長期時序信息。
5.如權(quán)利要求?1所述的一種動態(tài)手勢識別模型的構(gòu)建方法,其特征在于使用全連接層對長期時序信息編碼后使用?softmax歸一化生成動態(tài)卷積權(quán)重,然后卷積的方式聚合長期時序特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江西理工大學(xué);常紹鵬,未經(jīng)江西理工大學(xué);常紹鵬許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310230599.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 動態(tài)矢量譯碼方法和動態(tài)矢量譯碼裝置
- 動態(tài)口令的顯示方法及動態(tài)令牌
- 動態(tài)庫管理方法和裝置
- 動態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動態(tài)口令生成方法、動態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動態(tài)模糊控制系統(tǒng)
- 一種基于動態(tài)信號的POS機(jī)和安全保護(hù)方法
- 圖像動態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動態(tài)聚合碼的系統(tǒng)
- 基于動態(tài)口令的身份認(rèn)證方法、裝置和動態(tài)令牌
- 一種時空地理大數(shù)據(jù)的檢索方法及系統(tǒng)
- 一種泛知識化時空對象表達(dá)數(shù)據(jù)庫建立方法
- 一種基于時空密度波與同步的大型時空數(shù)據(jù)聚類算法GRIDWAVE
- 時空數(shù)據(jù)的存儲方法、查詢方法及存儲裝置、查詢裝置
- 一種云環(huán)境下時空索引的構(gòu)建方法、裝置及電子設(shè)備
- 面向工業(yè)4.0的時空大數(shù)據(jù)分布式存儲檢索方法及系統(tǒng)
- 一種數(shù)據(jù)比對碰撞方法和裝置
- 時空數(shù)據(jù)的異常檢測方法、裝置、電子設(shè)備和存儲介質(zhì)
- 一種可直接捕獲時空相關(guān)性的時空數(shù)據(jù)預(yù)測方法
- 多維時空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲介質(zhì)
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)





