[發(fā)明專利]基于深度卷積神經(jīng)網(wǎng)絡(luò)的單目6D姿態(tài)估計方法及裝置有效
| 申請?zhí)枺?/td> | 202110111487.0 | 申請日: | 2021-01-27 |
| 公開(公告)號: | CN112767486B | 公開(公告)日: | 2022-11-29 |
| 發(fā)明(設(shè)計)人: | 季向陽;王谷 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06T7/73 | 分類號: | G06T7/73;G06T3/40;G06V10/46;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 李巖 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 卷積 神經(jīng)網(wǎng)絡(luò) 姿態(tài) 估計 方法 裝置 | ||
本發(fā)明公開了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的單目6D姿態(tài)估計方法及裝置,該方法包括:對RGB圖像進行檢測得到目標物體區(qū)域,將包含目標物體的區(qū)域縮放到固定尺度;將縮放后的RGB圖像輸入卷積神經(jīng)網(wǎng)絡(luò),得到物體的分割掩碼、物體的三維模型坐標投影圖,以及物體的三維模型表面區(qū)域注意力圖,將物體的三維模型坐標投影與2D坐標圖拼接得到2D?3D密集對應(yīng)關(guān)系圖;將2D?3D密集對應(yīng)關(guān)系圖和表面區(qū)域注意力圖同時輸入到神經(jīng)網(wǎng)絡(luò)模塊中進行直接回歸得到目標物體的6D姿態(tài)。該方法充分利用幾何信息,使得直接回歸6D物體姿態(tài)的方法的性能優(yōu)于幾何間接法,且能夠滿足高精度、實時性以及可微分的要求。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機視覺,自動駕駛,機器人學(xué)技術(shù)領(lǐng)域,特別涉及一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的單目6D姿態(tài)估計方法及裝置。
背景技術(shù)
從單張RGB圖像中獲取物體在三維空間中的6D姿態(tài)(即3自由度的旋轉(zhuǎn)和3自由度的平移)在很多現(xiàn)實應(yīng)用中非常關(guān)鍵,例如,在機器人領(lǐng)域中,可為抓取或者運動規(guī)劃提供關(guān)鍵的信息;在無人駕駛中,車輛和行人的6D姿態(tài)可提供駕駛的決策信息;在增強現(xiàn)實/虛擬現(xiàn)實中,準確地獲得物體6D姿態(tài)可以實現(xiàn)更好的人機交互。
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)在單目6D物體姿態(tài)估計上取得了比較大的進展,大致有三大類方法。第一類是直接回歸的方法,即直接從神經(jīng)網(wǎng)絡(luò)預(yù)測6D姿態(tài),不同的方法預(yù)測不同的姿態(tài)表示。第二類是基于幾何的間接法,即預(yù)測稀疏的三維模型關(guān)鍵點在圖像平面上的投影或者預(yù)測密集的三維模型坐標投影圖,然后通過建立2D-3D的對應(yīng)關(guān)系,利用RANSAC/PnP求解6D姿態(tài)。第三種方法是利用度量學(xué)習(xí)或者自編碼器建立旋轉(zhuǎn)對應(yīng)的特征碼本,然后通過碼本索引得到姿態(tài)。這些方法中,基于幾何的間接法目前能達到的精度最高,而直接回歸法相對效果較差。雖然幾何間接法精度較高,但是該類方法存在一些缺點,例如該方法優(yōu)化的是坐標誤差,無法直接基于6D姿態(tài)進行優(yōu)化,而同樣的坐標誤差可能對應(yīng)完全不同的6D姿態(tài);測試時不能獲得可微分的姿態(tài)預(yù)測,無法應(yīng)用于其他需要可微分姿態(tài)的下游任務(wù);此外,RANSAC過程比較耗時,在實時性要求高的場景也不適用。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的一個目的在于提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的單目6D姿態(tài)估計方法,該方法充分利用幾何信息,使得直接回歸6D物體姿態(tài)的方法的性能優(yōu)于幾何間接法,且能夠滿足高精度、實時性以及可微分的要求。
本發(fā)明的另一個目的在于提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的單目6D姿態(tài)估計裝置。
為達到上述目的,本發(fā)明一方面實施例提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的單目6D姿態(tài)估計方法,包括:
對RGB圖像進行檢測得到目標物體區(qū)域,將包含目標物體的區(qū)域縮放到固定尺度;
將縮放后的RGB圖像輸入卷積神經(jīng)網(wǎng)絡(luò),得到物體的分割掩碼、物體的三維模型坐標投影圖,以及物體的三維模型表面區(qū)域注意力圖,將所述物體的三維模型坐標投影與2D坐標圖拼接得到2D-3D密集對應(yīng)關(guān)系圖;
將所述2D-3D密集對應(yīng)關(guān)系圖和表面區(qū)域注意力圖同時輸入到神經(jīng)網(wǎng)絡(luò)模塊中進行直接回歸得到目標物體的6D姿態(tài)。
本發(fā)明實施例的基于深度卷積神經(jīng)網(wǎng)絡(luò)的單目6D姿態(tài)估計方法,根據(jù)2D目標檢測器從RGB圖片中得到的目標物體區(qū)域進行裁剪縮放,輸入到深度卷積神經(jīng)網(wǎng)絡(luò)中,輸出三種幾何中間特征,包括物體的分割掩碼,物體的三維模型坐標投影圖,以及物體的三維模型表面區(qū)域注意力圖。物體的三維模型坐標投影圖和2D坐標圖拼接可得到2D-3D密集對應(yīng)關(guān)系圖。將2D-3D密集對應(yīng)關(guān)系圖和表面區(qū)域注意力圖這兩種幾何特征同時輸入第二個較小的神經(jīng)網(wǎng)絡(luò)模塊:Patch-PnP,直接回歸得到物體的6D姿態(tài)。網(wǎng)絡(luò)的兩個模塊均為可微分的神經(jīng)網(wǎng)絡(luò),且充分利用了幾何的中間特征,可以端到端地訓(xùn)練,在準確率高的同時有很快的推理速度。在多個數(shù)據(jù)基準的測試下,準確率、速度和魯棒性均優(yōu)于傳統(tǒng)的幾何間接方法和直接回歸方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110111487.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





