[發(fā)明專利]一種基于雙向獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)的骨架手勢識別方法有效
| 申請?zhí)枺?/td> | 201910079911.0 | 申請日: | 2019-01-28 |
| 公開(公告)號: | CN109902583B | 公開(公告)日: | 2020-04-24 |
| 發(fā)明(設(shè)計)人: | 李帥;朱策;鄭龍飛;張鐵;高艷博 | 申請(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 成都信博專利代理有限責(zé)任公司 51200 | 代理人: | 王沙沙 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 雙向 獨(dú)立 循環(huán) 神經(jīng)網(wǎng)絡(luò) 骨架 手勢 識別 方法 | ||
本發(fā)明公開了一種基于雙向獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)的骨架手勢識別方法,包括以下步驟:步驟1:獲取骨架手勢數(shù)據(jù)集并進(jìn)行預(yù)處理;步驟2:構(gòu)建雙向獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò);步驟3:將步驟1得到的數(shù)據(jù)集輸入到步驟2構(gòu)建的神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練;步驟4:采用步驟3訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)進(jìn)行骨架手勢的識別;本發(fā)明同時具備提取高級空間信息和時間關(guān)聯(lián)信息的能力且能提取雙向時間關(guān)聯(lián)信息,骨架手勢識別的準(zhǔn)確率高。
技術(shù)領(lǐng)域
本發(fā)明涉及骨架手勢識別方法,具體涉及一種基于雙向獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)的骨架手勢識別方法。
背景技術(shù)
手勢識別技術(shù)在虛擬現(xiàn)實、手語識別、機(jī)器人控制等人機(jī)交互領(lǐng)域被廣泛的應(yīng)用;隨著微軟Kinect和因特爾RealSence等非穿戴式的深度傳感器的發(fā)展,基于骨架數(shù)據(jù)的手勢識別算法被廣泛的研究;但骨架手勢識別任務(wù)由于空間上的差異小,對時間關(guān)聯(lián)信息的要求高,故其對算法的空間和時間信息提取能力的要求高。骨架手勢識別的算法可分為基于人工制作的特征的手勢識別算法和基于深度學(xué)習(xí)的手勢識別算法;基于人工制作的特征的方法通過計算手部骨架的幾何特征,再利用支持向量機(jī)進(jìn)行進(jìn)一步的分類以識別手勢;基于手工制作的特征的方法有,建立四維空間統(tǒng)計直方圖來捕捉表面法線方向的分布的方法;建立表征骨架關(guān)節(jié)三維坐標(biāo)及其動作空間中的時間位移軌道的骨架模型的方法;利用視圖不變關(guān)節(jié)角之間的兩兩相似性來描述骨架的方法;將手的形狀描述為時間序列曲線,并建立一種稱為手指-表面位移距離的距離度量來區(qū)分手勢的方法;構(gòu)建基于指尖的位置和方向的特征集,使用多分類支持向量機(jī)分類器進(jìn)行手勢識別的方法等;這類方法受到人工設(shè)計的骨架的幾何特征的有效性的限制,識別準(zhǔn)確率較低。
隨著深度學(xué)習(xí)的發(fā)展,基于經(jīng)驗開發(fā)的人工制作的特征已經(jīng)不能充分挖掘任務(wù)中數(shù)據(jù)的屬性;基于深度學(xué)習(xí)的手勢識別算法是利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等結(jié)構(gòu),通過學(xué)習(xí)的方法獲得網(wǎng)絡(luò)參數(shù),同時實現(xiàn)特征提取和分類。基于深度學(xué)習(xí)的手勢識別方法可分為基于卷積神經(jīng)網(wǎng)絡(luò)的方法和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法。基于卷積神經(jīng)網(wǎng)絡(luò)的方法是利用卷積神經(jīng)網(wǎng)絡(luò)提取空間特征對手勢識別。基于卷積神經(jīng)網(wǎng)絡(luò)的骨架手勢識別的方法例如利用并行卷積網(wǎng)絡(luò)進(jìn)行手勢識別的方法;利用3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢分類的方法等。該類方法并沒有有效地融合時間關(guān)聯(lián)特征,缺乏有效地提取時間關(guān)聯(lián)信息的能力。為了探索時間依賴性,具有提取時間關(guān)聯(lián)特征的能力的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法被逐漸提出。基于循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的手勢識別方法主要是利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長短期記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN)等進(jìn)行識別。該類方法有,利用循環(huán)神經(jīng)網(wǎng)絡(luò)的細(xì)胞對手指關(guān)節(jié)坐標(biāo)的運(yùn)動序列和全局手勢骨架坐標(biāo)序列按時間方向循環(huán)計算以逐層提取時間關(guān)聯(lián)特征的方法;也有組合地利用3維卷積神經(jīng)網(wǎng)絡(luò)對空間特征進(jìn)行初步提取,再利用卷積-長短期記憶網(wǎng)絡(luò)(Conv-LSTM)對時間關(guān)聯(lián)特征進(jìn)一步提取的方法等。但該類方法受到所利用的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長短期記憶網(wǎng)絡(luò)(LSTM)等循環(huán)神經(jīng)網(wǎng)絡(luò)等結(jié)構(gòu)本身梯度爆炸和梯度消失等問題的限制,所構(gòu)建的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的層級結(jié)構(gòu)是非常淺的。因此,該類方法所構(gòu)建的神經(jīng)網(wǎng)絡(luò)缺乏提取高層次時間關(guān)聯(lián)信息的能力,難以在手勢識別任務(wù)中達(dá)到高識別準(zhǔn)確率。
目前為了改善傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸和梯度消失的問題,一些改良的循環(huán)神經(jīng)網(wǎng)絡(luò)被提出來;獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN)是在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上修改了網(wǎng)絡(luò)隱層的計算方式;該神經(jīng)網(wǎng)絡(luò)的細(xì)胞隱層的輸出為輸入層的線性映射和上一時間步的隱層輸出的哈德馬積(Hadamard product)之和再經(jīng)過隨機(jī)糾正線性單元(ReLU)的計算結(jié)果。隱層的每個神經(jīng)元獨(dú)立地進(jìn)行計算,再通過疊加網(wǎng)絡(luò)層數(shù)來融合隱層的各神經(jīng)元;網(wǎng)絡(luò)的激活函數(shù)被修改為隨機(jī)糾正線性單元,且在訓(xùn)練過程中添加了梯度裁剪等功能;獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)能在多達(dá)21層和5000時間步的網(wǎng)絡(luò)訓(xùn)練中仍具有魯棒性,具備較強(qiáng)的挖掘時間關(guān)聯(lián)特征的能力。獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)的有效性在自然語言處理、骨架行為識別,手寫數(shù)字序列分類等任務(wù)已得到驗證。其對時間信息的挖掘能力仍可以進(jìn)一步擴(kuò)展。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910079911.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





