[發(fā)明專利]一種基于對數(shù)路徑積分特征和卷積神經(jīng)網(wǎng)絡(luò)的手勢識別方法在審
| 申請?zhí)枺?/td> | 201810106610.8 | 申請日: | 2018-02-02 |
| 公開(公告)號: | CN108304806A | 公開(公告)日: | 2018-07-20 |
| 發(fā)明(設(shè)計)人: | 張鑫;李晨陽 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 積分特征 卷積神經(jīng)網(wǎng)絡(luò) 手勢識別 手部 檢測器 手部位置 數(shù)據(jù)增強 構(gòu)建 空間位置信息 對視頻數(shù)據(jù) 光照條件 軌跡樣本 視頻樣本 輸出識別 二維 魯棒 四維 逐幀 標(biāo)注 手勢 三維 檢測 應(yīng)用 | ||
本發(fā)明公開了一種基于對數(shù)路徑積分特征和卷積神經(jīng)網(wǎng)絡(luò)的手勢識別方法,步驟包括:對視頻數(shù)據(jù)進行標(biāo)注,訓(xùn)練一個基于Faster?RCNN的手部檢測器;利用手部檢測器對視頻樣本逐幀進行檢測,獲得每一幀的手部位置;基于每一幀的手部位置,結(jié)合時間和深度構(gòu)建出二維、三維和四維的手部軌跡;對手部軌跡進行數(shù)據(jù)增強;對增強后的軌跡樣本提取相應(yīng)的對數(shù)路徑積分特征;將對數(shù)路徑積分特征按照空間位置信息進行排列,構(gòu)建出對應(yīng)的特征立方體;將特征立方體作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,并最終輸出識別結(jié)果。本發(fā)明將魯棒的對數(shù)路徑積分特征應(yīng)用于手勢識別領(lǐng)域,并提出新的數(shù)據(jù)增強方法隨機棄幀,在不同的背景和光照條件下,都能準(zhǔn)確識別手勢種類。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機視覺和機器學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種基于對數(shù) 路徑積分特征和卷積神經(jīng)網(wǎng)絡(luò)的手勢識別方法。
背景技術(shù)
目前,計算機已經(jīng)得到廣泛的應(yīng)用,人機交互也已經(jīng)成為人們生活的 一個部分。從人機交互的發(fā)展上來看,人機交互的方式包括現(xiàn)有的鼠標(biāo), 鍵盤以及更加先進的觸摸屏,但是上面提到的方法都無法脫離“接觸式”的 交互方式。因此,更加貼近人類表達本能的手勢交互方式得到更多的重視。 手勢交互利用計算機視覺,計算機圖形學(xué)等技術(shù)識別人體的手勢動作,并 將手勢的含義轉(zhuǎn)化為設(shè)備的操作指令。在對話的過程中,手勢除了能夠傳 遞語義信息,還可以傳遞說話人的性格、文化背景、感情色彩、說話的動 機以及對聽眾的態(tài)度。許多心理學(xué)的研究表明,肢體運動不僅僅能于傳遞 語義信息、方法自己的感情色彩和彌補言語無法表達的場景,還能夠讓說 話人做出更加復(fù)雜而生動的表達。因而,識別和理解肢體語言是理解和模 擬人體行為的必要條件。基于計算機視覺的手勢識別任務(wù)作為計算機視覺 領(lǐng)域中一個重要的任務(wù),從19世紀(jì)70年代開始就受到學(xué)術(shù)界廣泛的關(guān)注。
識別主要可以分為基于傳統(tǒng)機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。 基于傳統(tǒng)方法進行手勢識別,主要是提取特征描述子訓(xùn)練分類器進行手勢 識別。所以,特征是否有用將直接影響分類器的訓(xùn)練效果。近幾年,深度 卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn),基于深度學(xué)習(xí)的手勢識別主要可以分為:單純使用卷 積神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)兩種,其中使用的比較多的 是卷積神經(jīng)網(wǎng)絡(luò)結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的方法。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中的上述缺陷,提供一種基于對數(shù) 路徑積分特征和卷積神經(jīng)網(wǎng)絡(luò)的手勢識別方法,以彌補現(xiàn)有特征適用場景 單一的局限性,進一步提高手勢識別的精度。
本發(fā)明的目的可以通過采取如下技術(shù)方案達到:
一種基于對數(shù)路徑積分特征和卷積神經(jīng)網(wǎng)絡(luò)的手勢識別方法,包括步 驟:
S1、對視頻數(shù)據(jù)進行標(biāo)注,訓(xùn)練一個基于Faster-RCNN的手部檢測器;
S2、利用訓(xùn)練好的手部檢測器對訓(xùn)練集和測試集的視頻樣本逐幀進行 檢測,獲得每一幀的手部位置;
S3、基于每一幀的手部位置,結(jié)合時間信息和深度信息,構(gòu)建出二維、 三維和四維三種形式的手部軌跡;
S4、對所獲得的手部軌跡進行數(shù)據(jù)增強,包括隨機棄幀以及常規(guī)操作, 其中,常規(guī)操作包括旋轉(zhuǎn)、變形和平移;
S5、對增強后的軌跡樣本提取相應(yīng)的對數(shù)路徑積分特征,計算出每一 個軌跡點對應(yīng)的對數(shù)路徑積分特征;
S6、將對數(shù)路徑積分特征按照空間位置信息進行排列,從而構(gòu)建出對 應(yīng)的特征立方體;
S7、將訓(xùn)練集的特征立方體作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,訓(xùn)練卷積神經(jīng) 網(wǎng)絡(luò),并將測試集作為訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)的輸入,輸出最終的識別結(jié) 果。
進一步地,所述的步驟S1包括:
S11、將待識別的數(shù)據(jù)庫的訓(xùn)練集視頻分解成幀;
S12、利用標(biāo)注工具,標(biāo)注出每一幀手的位置的外接矩形,并將外接矩 形的左上角和右下角坐標(biāo)記錄于xml文件中;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810106610.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 終端卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、存儲介質(zhì)及處理器
- 一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像深度估計方法
- 卷積神經(jīng)網(wǎng)絡(luò)的生成方法及裝置
- 一種卷積神經(jīng)網(wǎng)絡(luò)硬件模塊部署方法
- 卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、設(shè)備及存儲介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法及裝置
- 一種基于通道數(shù)搜索卷積神經(jīng)網(wǎng)絡(luò)的方法
- 卷積神經(jīng)網(wǎng)絡(luò)處理方法、裝置和電子系統(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的聲音事件檢測方法
- 基于稀疏卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法及檢測裝置





