[發明專利]基于深度卷積神經網絡的自由場景第一視角手指關鍵點檢測方法在審
| 申請號: | 201610033819.7 | 申請日: | 2016-01-19 |
| 公開(公告)號: | CN105718879A | 公開(公告)日: | 2016-06-29 |
| 發明(設計)人: | 金連文;黃毅超;劉孝睿;張鑫 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/08 |
| 代理公司: | 廣東廣信君達律師事務所 44329 | 代理人: | 李斌;楊曉松 |
| 地址: | 510640 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 卷積 神經網絡 自由 場景 第一 視角 手指 關鍵 檢測 方法 | ||
技術領域
本發明涉及計算機視覺以及機器學習的研究領域,特別涉及一種基于深度卷積神 經網絡的自由場景第一視角手指關鍵點檢測方法。
背景技術
近年來,隨著智能眼鏡的興起,第一視角(EgocentricVision)手勢交互技術受到 學術界和工業界的廣泛關注,尤其是GoogleGlass、MicrosoftHololens等智能可穿戴式 設備以及Oculus等虛擬現實設備的出現使得傳統的人機交互方式難以適用,急需一種算法 來幫助設備理解人的交互需要,如手勢操作等。手勢交互技術主要涉及兩個方面,手勢識別 和關鍵點定位,本發明著眼于關鍵點定位,即指尖檢測定位和指關節檢測定位。在過去的幾 十年中,基于計算機視覺的手部建模方法主要有基于膚色、輪廓、運動的方法。然而基于膚 色的方法對背景和光線有較高的要求,基于輪廓的方法在手勢發生形變的情況下效果非常 不好,基于運動的方法要求背景變化不能有太大變化。總而言之,這些傳統方法各自都有較 大的局限性,一般都要求在特定的簡單背景下才能達到較好的效果。在背景復雜多變、光照 變化、手勢變化、手勢快速移動、攝像頭移動、圖像模糊等各種各樣的非約束條件下,傳統的 手部建模方法效果很差。另外還有基于紅外信息或者深度信息的RGB-D手部建模算法,然而 這些技術都需要特殊而昂貴的設備,最有大規模應用前景的還是基于普通攝像頭所采集的 RGB圖像信息的技術。
傳統方法中人工定義的特征大多都有比較大的局限性,而近來興起的深度學習技 術正好可以解決這個特征提取問題。深度學習技術中比較適合處理視覺信息的主要是深度 卷積神經網絡(CNN),它是一種監督學習的方法,需要訓練樣本及其標記,通過反向傳播算 法,訓練出一個能夠提取圖像淺層特征并逐層將淺層特征通過非線性變換抽象成高級特征 的網絡。CNN方法在各種視覺識別任務如人臉關鍵點檢測、行人檢測等任務中均表現出非常 好的效果。
發明內容
本發明的主要目的在于克服現有技術的缺點與不足,提供一種基于深度卷積神經 網絡的自由場景第一視角手指關鍵點檢測方法,解決靜態圖像中手指關鍵點檢測問題,進 而應用到視頻流中的手指關鍵點識別和跟蹤。。
為了達到上述目的,本發明采用以下技術方案:
本發明基于深度卷積神經網絡的自由場景第一視角手指關鍵點檢測方法,包括下 述步驟:
S1、獲取訓練數據,通過定位技術獲取得到包含手部的區域,人工標記手指關鍵點 所在的坐標,所述手指關鍵點包括指尖和手指關節點;
S2、設計一個深度卷積神經網絡,利用該深度卷積網絡求解點坐標回歸問題,其目 標函數為四維向量輸出和四維向量真實值之差的歐氏范數,并利用定義進行誤差反向傳播 和梯度下降對目標函數進行優化;
S3、通過大量標記樣本訓練該深度卷積神經網絡的權重參數,經過迭代到達穩定 后,獲得多層的卷積核參數;
S4、以任意前景圖片作為輸入,經過網絡參數的計算后得到準確的手指關鍵點坐 標。
作為優選的技術方案,步驟S1具體為:
S1.1、采集大量實際場景樣本,以攝像頭處于眼鏡處作為第一視角模擬,進行大量 錄像并使得錄像的每一幀包含手勢姿態,數據樣本需要覆蓋不同場景、光照、姿勢;然后,切 割出包含手部區域的矩形前景圖像;
S1.2、人工標記手指關鍵點所在位置的笛卡爾坐標,并根據圖片的原始長寬進行 歸一化存儲,即在一個長寬為(w,h)的矩形圖像,手指關鍵點坐標為(a,b),則歸一化坐標為 (a/w,b/h);
S1.3、轉化為一種鍵值對的數據存儲格式,使得圖片與坐標配對存儲。
作為優選的技術方案,步驟S1.1和S1.2中,
所述手勢姿態為單指手勢姿態,手指關鍵點坐標經過人工標記后,第一視角的畫 面可見指尖和指關節。
作為優選的技術方案,所述鍵值對的數據存儲格式包括LevelDB或LMDB的數據格 式。
作為優選的技術方案,步驟S2具體為:
S2.1、設計一個深度卷積神經網絡,該深度卷積神經網絡包括卷積層、池化層和全 卷積層,使得該深度卷積神經網絡輸入為三通道RGB圖像,輸出為二維坐標(x,y);
S2.2、確定其應用損失函數,應用損失函數用下述公式表示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610033819.7/2.html,轉載請聲明來源鉆瓜專利網。





