[發明專利]一種基于時空上下文學習的手部姿態估計方法在審
| 申請號: | 201911235772.2 | 申請日: | 2019-12-05 |
| 公開(公告)號: | CN111178142A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 李璽;吳一鳴 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時空 上下文 學習 姿態 估計 方法 | ||
本發明公開了一種基于時空上下文學習的手部姿態估計方法,用于在給定連續深度圖像的情況下,能夠輸出每一幀中手部節點的三維坐標。具體包括如下步驟:獲取用于訓練手部姿勢估計的連續幀深度圖像數據集,并定義算法目標;在空間以及時間維度上使用空間網絡以及時間網絡分別建模對應上下文信息;根據輸入圖像使用融合網絡為時間空間模型的輸出進行融合;建立手部姿態估計的預測模型;使用所述的預測模型對連續幀深度圖像進行手部姿態估計。本發明使用與真實視頻中的手部姿態估計,面對各類復雜情況具有較佳的效果和魯棒性。
技術領域
本發明屬于計算機視覺領域,特別地涉及一種基于時空上下文學習的手部姿態估計方法。
背景技術
手部姿態估計被定義為如下問題:在給定包含手部的深度圖像中發現并給出手部關節點相對攝像機的具體位置。手部姿態估計常用于人機交互、增強現實或虛擬現實應用中。傳統方法通過對手部使用參數化模型進行表達,并定義能量函數進行模型參數的優化,但是由于基于模型的方法計算消耗較為昂貴以及今年來深度神經網絡的發展,基于表觀特征的方法從數據中發掘手部姿態的模式,并且資源消耗與基于模型的方法相比更小。
由于統計建模的有效性,目前基于學習的方法逐漸被應用到手部姿態估計任務中。現有的基于表觀特征的學習方法主要采用的是端到端的深度神經網絡模型,通過輸入單幀或多幀包含手部的深度圖像,輸出預測的手部關節點位置。一方面,現今大部分方法使用深度圖像或三維體素作為輸入,本發明認為兩種輸入相互關聯,并可以相互進行補充;另一方面,在實際場景中多幀深度圖像間具有相關性,通過在時間維度上建模上下文信息提高網絡的預測準確性。
發明內容
為解決上述問題,本發明的目的在于提供一種基于時空上下文學習的手部姿態估計方法。該方法基于深度神經網絡,利用神經網絡對深度圖像以及三維體素輸入進行特征提取并有效融合,從時間維度上使用遞歸神經網絡對多幀圖像特征之間的關系進行建模,可以提高多幀場景下的手部姿態估計。
為實現上述目的,本發明的技術方案為:
一種基于時空上下文學習的手部姿態估計方法,其包括以下步驟:
S1、獲取用于訓練手部姿態估計的連續幀深度圖像數據集;
S2、在空間以及時間維度上使用空間網絡以及時間網絡分別建模對應的上下文信息;
S3、根據輸入圖像使用融合網絡為時間空間模型的輸出進行融合;
S4、建立手部姿態估計的預測模型;
S5、使用所述的預測模型對連續幀深度圖像進行手部姿態估計。
基于上述技術方案,各步驟可采用如下優選方式實現。
優選的,步驟S1中,獲取用于訓練手部姿態估計的連續幀深度圖像數據集,包括N個訓練視頻,每個訓練視頻中含有連續幀深度圖像(X1,...,XT)train,以及預先標注的手部關節點位置(J1,...,JT)train。
進一步的,步驟S2中,在空間以及時間維度上使用空間網絡以及時間網絡分別建模對應的上下文信息具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911235772.2/2.html,轉載請聲明來源鉆瓜專利網。





