[發明專利]基于深度卷積神經網絡的單目6D姿態估計方法及裝置有效
| 申請號: | 202110111487.0 | 申請日: | 2021-01-27 |
| 公開(公告)號: | CN112767486B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 季向陽;王谷 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06T7/73 | 分類號: | G06T7/73;G06T3/40;G06V10/46;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 李巖 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 卷積 神經網絡 姿態 估計 方法 裝置 | ||
1.一種基于深度卷積神經網絡的單目6D姿態估計方法,其特征在于,包括以下步驟:
對RGB圖像進行檢測得到目標物體區域,將包含目標物體的區域縮放到固定尺度;
將縮放后的RGB圖像輸入卷積神經網絡,得到物體的分割掩碼、物體的三維模型坐標投影圖,以及物體的三維模型表面區域注意力圖,將所述物體的三維模型坐標投影與2D坐標圖拼接得到2D-3D密集對應關系圖;
將所述2D-3D密集對應關系圖和表面區域注意力圖同時輸入到神經網絡模塊中進行直接回歸得到目標物體的6D姿態;
對所述卷積神經網絡進行訓練時,物體的三維模型表面區域注意力圖的真實標注采用三維模型坐標投影圖和三維模型上的最遠采樣關鍵點計算得到,在二維圖像上的每個物體前景像素上,其三維模型表面區域注意力圖為與該像素對應的三維模型坐標投影值距離最小的三維模型最遠采樣關鍵點的序號;
所述卷積神經網絡由卷積層,殘差卷積模塊,反卷積層,和上采樣層構成,輸入的目標圖像塊的空間尺度先被縮小到1/32,然后放大到輸入尺度的1/4,物體分割掩碼的通道數為1,物體的三維模型坐標投影圖的通道數為3,物體三維模型表面區域注意力圖的通道數為S+1,其中,S是三維模型的表面區域數;
所述神經網絡模塊的Patch-PnP網絡由卷積層和全連接層構成,采用三層步幅為2的卷積層將輸入的幾何特征的空間尺度降為輸入圖像尺度的1/32,再將卷積層輸出的特征拉平,通過全連接層分別回歸旋轉和平移。
2.根據權利要求1所述的方法,其特征在于,對所述卷積神經網絡進行訓練時,物體的三維模型坐標投影圖的真實標注采用渲染的方法得到,將物體的三維模型的每個頂點的顏色用頂點的坐標代替,在給定的6D姿態下通過OpenGL渲染得到三維模型坐標投影圖。
3.根據權利要求1所述的方法,其特征在于,旋轉R的回歸采用6維的向量R6d,取自3×3旋轉矩陣R的前兩列,對于任意網絡輸出的6維旋轉向量R6d=[r1|r2],根據旋轉矩陣的正交性,解出3×3的旋轉矩陣R=[R.1|R.2|R.3]:
其中,φ表示向量歸一化操作,×表示向量的叉乘。
4.根據權利要求1所述的方法,其特征在于,平移t的回歸采用尺度不變的平移量tSITE=[δx,δy,δz]T,即預測原始圖像中目標物體的矩形包圍框的中心(cx,cy)和物體在圖像上的投影中心(ox,oy)之間的相對距離(δx,δy),以及物體與相機之間的相對距離δz:
其中,w和h為原始圖像中目標物體的矩形包圍框的寬和高,r為原始圖像中目標物體的尺度與網絡輸入圖像塊的尺度szoom之間的縮放系數r=szoom/max(w,h),根據網絡的預測平移量,通過逆投影得到3D的平移量t=K-1tz[ox,oy,1]T,其中,K為相機的內部參數。
5.根據權利要求1所述的方法,其特征在于,網絡損失函數為L=LGeom+LPose,其中,LGeom為幾何損失,LPose為6D姿態回歸損失;幾何損失函數LGeom為:
其中,CE表示交叉熵損失函數,和分別表示真實標注和預測量,⊙為逐點乘法,表示只計算MXYZ和MRegion的前景部分的損失函數;
6D姿態回歸損失為:
其中,M為物體的3D模型,x∈M為3D模型上的點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110111487.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于靜電保護的可控硅結構
- 下一篇:一種外波輪形增強復合管





