[發(fā)明專利]基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的第一視角手勢識別與交互方法有效
| 申請?zhí)枺?/td> | 201710273519.0 | 申請日: | 2017-04-25 |
| 公開(公告)號: | CN107168527B | 公開(公告)日: | 2019-10-18 |
| 發(fā)明(設(shè)計(jì))人: | 鄭曉旭;徐向民;殷瑞祥;蔡博侖 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06F3/01 | 分類號: | G06F3/01;G06K9/00;G06N3/08 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 林梅繁 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 區(qū)域 卷積 神經(jīng)網(wǎng)絡(luò) 第一 視角 手勢 識別 交互 方法 | ||
本發(fā)明公開了一種基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的第一視角手勢識別與交互方法,該方法包括如下步驟:S1、獲取訓(xùn)練數(shù)據(jù);S2、設(shè)計(jì)一個(gè)基于區(qū)域神經(jīng)網(wǎng)絡(luò),在用于手部檢測的同時(shí),也用于手勢分類與指尖檢測,使得神經(jīng)網(wǎng)絡(luò)輸入為三通道RGB圖像,輸出為手勢區(qū)域的外接矩陣左上角坐標(biāo)和右下角坐標(biāo),以及手勢類別、手勢骨架關(guān)鍵點(diǎn);S3,判斷手勢類別,根據(jù)不同交互需求輸出相應(yīng)的交互結(jié)果。本發(fā)明提供了一種完整的第一視角手勢識別與交互方法,通過單模型訓(xùn)練與部分網(wǎng)絡(luò)共享,提高了第一視角下手勢識別的識別速度與準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)的技術(shù)領(lǐng)域,具體涉及一種基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的第一視角手勢識別與交互方法。
背景技術(shù)
隨著許多虛擬現(xiàn)實(shí)(Virtual Reality,VR)和增強(qiáng)現(xiàn)實(shí)(Augmenting Reality,AR)設(shè)備產(chǎn)品的推出,給人機(jī)交互方面研究的熱度又增加了不少。縱觀人體全身,手已經(jīng)被認(rèn)為是最重要和普遍的交互工具了。同時(shí),在人機(jī)交互領(lǐng)域,手勢識別已經(jīng)是一個(gè)很重要的研究方向。而由于AR與VR的興起,第一視角(Egocentric Vision)手勢交互技術(shù)逐漸受到大家的關(guān)注,越來越多的學(xué)者及企業(yè)也紛紛投入人力物力去做相應(yīng)的研究與開發(fā)。
第一視角的手勢交互主要涉及兩個(gè)方面,手勢識別與骨架關(guān)鍵點(diǎn)定位。本發(fā)明將結(jié)合手勢識別與骨架點(diǎn)定位形成一個(gè)綜合應(yīng)用。假設(shè)如下場景:用戶在佩戴AR/VR設(shè)備的情況下,需要與設(shè)備中內(nèi)容做相應(yīng)交互,可以直接舉起手進(jìn)行特定的手勢動作,完成特定的交互操作而無需借助其他外接設(shè)備,大大提高了產(chǎn)品的用戶體驗(yàn)。
目前,由于數(shù)字?jǐn)z像頭的廣泛普及,基于圖像和視頻的手勢識別研究已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向之一。各種各樣的手勢識別的傳統(tǒng)方法也早已經(jīng)被提出來,例如隱馬爾科夫模型(HMM)、有限狀態(tài)機(jī)(FSM)、動態(tài)貝葉斯網(wǎng)絡(luò)(DBN)、動態(tài)時(shí)間規(guī)劃(DTW)和人工神經(jīng)網(wǎng)絡(luò)(ANN)。這些傳統(tǒng)方法模型通常是需要人工預(yù)定義特征,如尺度不變特征轉(zhuǎn)換(SIFT)、陳特征(SURF)、方向梯度直方圖(HOG)、傅里葉描述子等手形特征描述和基于光流、運(yùn)動跟蹤方法的手勢運(yùn)動信息描述,人工選擇特征的方法有很大的局限性,通常需要先驗(yàn)知識、經(jīng)驗(yàn)和大量的手工調(diào)整,而且算法模型的識別率容易因?yàn)槭謩莶僮魉俣取⒎较颉⑹中未笮〉牟町惍a(chǎn)生很大的影響。近年來新起的深度學(xué)習(xí)技術(shù)在特征選擇方面可以很好的解決上述問題。深度學(xué)習(xí)善于處理視覺信息,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)能將圖像淺層特征通過層層非線性變化強(qiáng)化為高級深層特征,在各種視覺分類,回歸問題均能有極佳的表現(xiàn)。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)存在的上述不足,本發(fā)明提出基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的第一視角手勢識別與交互方法,以解決第一視角下,動態(tài)視頻流中手勢識別與關(guān)鍵骨節(jié)點(diǎn)精準(zhǔn)定位問題,并根據(jù)手勢識別結(jié)果及利用骨節(jié)點(diǎn)位置信息,實(shí)現(xiàn)一套手勢交互方案。
為了實(shí)現(xiàn)上述的目的,本發(fā)明提供如下的技術(shù)方案:基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的第一視角手勢識別與交互方法,包括以下步驟:
S1、獲取包括多種不同第一視角下的手勢的訓(xùn)練數(shù)據(jù),人工標(biāo)定訓(xùn)練數(shù)據(jù)的標(biāo)簽,所述訓(xùn)練數(shù)據(jù)的標(biāo)簽包括手勢區(qū)域的外接矩陣左上角坐標(biāo)和右下角坐標(biāo)、人工標(biāo)定的手勢類別、人工標(biāo)定的關(guān)鍵骨架的坐標(biāo)點(diǎn);
S2、設(shè)計(jì)一個(gè)基于區(qū)域卷積的神經(jīng)網(wǎng)絡(luò),使得神經(jīng)網(wǎng)絡(luò)輸入為三通道RGB圖像,輸出為手勢區(qū)域的外接矩陣左上角坐標(biāo)和右下角坐標(biāo),以及手勢類別、手勢骨架關(guān)鍵點(diǎn);
S3、判斷手勢類別,根據(jù)不同需求輸出相應(yīng)的交互結(jié)果;
S4、利用手勢判別結(jié)果進(jìn)行指令判別,作出相應(yīng)指令。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710273519.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計(jì)算機(jī)能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機(jī)傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計(jì)算機(jī)之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時(shí)間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機(jī)上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





