[發明專利]一種基于RGB圖像的輕量化三維手部姿態估計方法在審
| 申請號: | 202211628762.7 | 申請日: | 2022-12-17 |
| 公開(公告)號: | CN115880724A | 公開(公告)日: | 2023-03-31 |
| 發明(設計)人: | 佘青山;陳炫琦;馬玉良;席旭剛 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06T3/40;G06V10/80;G06N3/0464;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 310018 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 rgb 圖像 量化 三維 姿態 估計 方法 | ||
本發明涉及一種基于RGB圖像的輕量化三維手部姿態估計方法,首先,使用多個sandglass殘差塊串聯堆疊,用于進行局部的特征建模。其次,在部分sandglass殘差塊之后,對特征進行“展開”操作,并以Transformer塊結構進行全局的特征建模,再對特征進行“折疊”,并進行特征融合。然后,在Transformer塊中引入可分離自注意力機制,降低自注意力的計算復雜度。最后,將特征圖通過卷積得到二維手部姿態熱圖,兩者拼接后通過卷積得到關節向量圖,再次拼接后再通過卷積得到三維手部姿態熱圖,最終實現三維手部姿態估計。本發明從RGB圖像中直接估計三維手部姿態,并且能夠在具有較高的估計精度的同時保持優良的計算效率,能夠在人機交互、虛擬現實、手勢識別等領域具有廣闊的應用前景。
技術領域
本發明涉及一種基于RGB圖像的輕量化三維手部姿態估計方法,利用多層輕量的sandglass殘差連接塊提取圖像局部特征,再結合視覺Transfomer塊結構提取圖像全局特征,最終再通過卷積將二維手部姿態熱圖提升為三維姿態熱圖,實現基于RGB圖像的三維手部姿態估計,屬于計算機視覺、深度學習技術領域。
背景技術
近年來,由于深度學習卷積神經網絡的發展,手部姿態估計任務也有著飛速的發展,在過去的十幾年里提出了很多效果不錯的方法。根據獲取手部姿態的信息表示方式,可以將手部姿態估計的任務劃分為二維和三維兩種情況。由于RGB圖像的獲取相較于具有深度信息RGB-D圖像而言,所需的設備成本以及計算成本更低,所以基于RGB圖像的手部姿態估計更具研究價值。而三維手部姿態估計能更精確地的表示手部關節點的位置,故在缺乏深度信息的RGB圖像中,精確估計出手部關節點的三維信息具有挑戰性。
在深度學習研究興起之前,傳統的機器學習算法通常用于手部姿態估計的研究。例如,Rehg和Wang等人開發了可視化的手部跟蹤程序,并使用物理外設完成手部跟蹤和交互任務。這些傳統方法通常使用三維動態模型來擬合模型。后來由于人體姿態估計方法的突破,神經網絡被廣泛應用于姿態估計。人體姿態估計和手部姿態估計是兩個密切相關的研究領域,受人體姿態估計的啟發,提出了許多手部姿態估計方法。Spurr等人提出了一種使用生成模型同時應用于RGB和深度圖像的方法。該方法采用半監督學習方法,利用交叉模態訓練網絡獲取手部空間模型。Cai等人提出了一種弱監督方法,在訓練中使用深度圖像,在測試中使用RGB圖像作為聯合預測。該方法對預測的三維姿態進行深度圖像回歸,補充了三維姿態回歸中的弱監督模式。
近年來,很多基于RGB圖像的手部姿態估計方法都是基于手部的二維骨骼關鍵點檢測,然后利用二維信息提升到三維。Franziska等提出了一種結合了神經網絡和運動學約束的手位姿估計模型,用以解決單目RGB圖像手的跟蹤和位姿估計問題,他們認為這種組合對數據的泛化是有效的,并且對手部骨骼關鍵點的估計在運動中不同的相機視角下更具魯棒性。同時,提出了一種基于幾何一致性的圖像轉換方法,利用神經網絡將合成數據“轉換”為真實數據,從而更有利于得到魯棒性更強的三維模型。Liuhao等人提出了一種使用RGB圖像估計手姿并生成手形的方法,主要分為兩個訓練。在一階段中,作者使用合成數據進行訓練,通過沙漏網絡模型與圖卷積網絡,最終線性回歸生成手部姿態。然后在二階段中對一階段的模型進行微調,用于真實數據的訓練,一定程度上提高了模型的泛化性,能夠使其在真實場景中效果得到改善。Yuxiao等人提出了一種利用多模態數據的單目手部運動捕捉方法,從單張圖像恢復手部的二維關鍵點表示,通過二維關鍵點恢復手部的三維關鍵點和形狀。在二維關鍵點檢測中,通過卷積網絡得到手部關鍵點的熱圖,通過熱圖回歸找到二維關鍵點的表示。在三維關鍵點檢測部分,參考VNect的人體姿態估計網絡,通過二維關鍵點熱圖和圖像特征回歸手部三維姿態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211628762.7/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





