[發(fā)明專利]基于雙向RGB-D特征融合的物體姿態(tài)估計方法及裝置有效
| 申請?zhí)枺?/td> | 202211419607.4 | 申請日: | 2022-11-14 |
| 公開(公告)號: | CN115578461B | 公開(公告)日: | 2023-03-10 |
| 發(fā)明(設(shè)計)人: | 孟啟煒;宋偉;朱世強;金天磊;郭方泰 | 申請(專利權(quán))人: | 之江實驗室 |
| 主分類號: | G06T7/73 | 分類號: | G06T7/73;G06V10/80;G06V10/25;G06V10/26;G06V10/46;G06V10/762;G06V10/82 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 311121 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 雙向 rgb 特征 融合 物體 姿態(tài) 估計 方法 裝置 | ||
本發(fā)明公開了一種基于雙向RGB?D特征融合的物體姿態(tài)估計方法及裝置,該方法的核心創(chuàng)新點為特征雙向融合模塊,通過將RGB與點云特征投影到標準空間以實現(xiàn)對齊,互補和相互增強的作用,提升了最終RGB?D特征的顯著性與代表性。此外,本發(fā)明還創(chuàng)新性地引入了感興趣區(qū)域檢測,特征恒等映射與殘差融合,多任務協(xié)同訓練,關(guān)鍵點投票與聚類,最小二乘法姿態(tài)解算等關(guān)鍵方法,極大改善了傳統(tǒng)物體六自由度姿態(tài)估計中存在的抗干擾能力弱,精度不足等痛點問題。經(jīng)多個實際場景測試,本發(fā)明可在雜亂環(huán)境下,高魯棒性和高精度地實現(xiàn)對遮擋物體的六自由度姿態(tài)估計。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺領(lǐng)域,具體涉及一種基于雙向RGB-D特征融合的物體姿態(tài)估計方法及裝置。
背景技術(shù)
物體姿態(tài)估計目標為解算物體在三維空間的六自由度姿態(tài),即沿x、y、z三個直角坐標軸方向的移動自由度和繞這三個坐標軸的轉(zhuǎn)動自由度。該技術(shù)是計算機視覺的前沿研究方向之一,對環(huán)境理解,場景重建,自動駕駛,機器人決策操控等實際應用具有重要意義。同時,物體姿態(tài)估計研究也被認為是極具挑戰(zhàn)的,不同于二維空間下的物體檢測與分割任務,其涉及物體在高維空間的狀態(tài)計算,因此更易受光照,遮擋,背景噪聲等環(huán)境因素的影響,這也對姿態(tài)估計算法的魯棒性和精確度提出了更高的要求。
目前,物體姿態(tài)估計主要是基于關(guān)鍵點投票的方法實現(xiàn)的,即先利用神經(jīng)網(wǎng)絡(luò)對RGB-D圖像提取特征,然后基于像素點特征進行物體的關(guān)鍵點投票和聚類,最后通過圖像關(guān)鍵點與物體先驗模型關(guān)鍵點的對應關(guān)系實現(xiàn)六自由度姿態(tài)的解算。這種方法對圖像RGB-D特征有較高的依賴,而現(xiàn)有的特征提取存在兩個主要不足:一是忽略了RGB-D特征的互補性和協(xié)同性;二是特征提取由關(guān)鍵點投票單任務牽引。這些缺點降低了提取特征的魯棒性和顯著性,進而影響姿態(tài)估計算法精度和實際場景下的應用效果。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于雙向RGB-D特征融合的物體姿態(tài)估計方法及裝置。本發(fā)明能夠高魯棒性、高精度地提取圖像顯著性特征,進而應用于目標物體的關(guān)鍵點投票與姿態(tài)解算,對場景物體狀態(tài)估計以及機器人操控作業(yè)具有重要意義。
本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:本發(fā)明實施例第一方面提供了一種基于雙向RGB-D特征融合的物體姿態(tài)估計方法,包括以下步驟:
(1)對場景RGB-D圖像進行預處理,獲得對齊后的RGB圖像以及場景點云,再通過深度神經(jīng)網(wǎng)絡(luò)提取RGB圖像的淺層特征用于物體檢測和感興趣區(qū)域定位;
(2)根據(jù)步驟(1)中定位的感興趣區(qū)域,首先將感興趣區(qū)域與原始RGB圖像以及場景點云對齊,分割原始RGB圖像和場景點云,得到原始RGB圖像和場景點云中的感興趣區(qū)域;然后采用ResNet-PSP網(wǎng)絡(luò)和RandLA網(wǎng)絡(luò)逐層將RGB特征與點云特征投影到標準空間實現(xiàn)雙向特征融合得到RGB融合特征與點云融合特征,進而通過特征純化網(wǎng)絡(luò)對融合特征進行純化,分別得到當前層級的RGB特征與點云特征,通過ResNet-PSP網(wǎng)絡(luò)和RandLA網(wǎng)絡(luò)逐層推理,以獲得最終的純化后的RGB特征與點云特征;最后將最終的純化后的RGB特征與點云特征通過多層感知機進行融合,得到感興趣區(qū)域的RGB-D融合特征;
(3)根據(jù)步驟(2)獲得的RGB-D融合特征,通過多任務協(xié)同學習的網(wǎng)絡(luò)結(jié)構(gòu)將RGB-D融合特征用于物體語義分割、物體中心點以及關(guān)鍵點投票三項任務的協(xié)同訓練,并將投票得到的物體中心點與關(guān)鍵點聚類;
(4)基于所述步驟(3)中獲得的聚類后相機坐標系下的物體中心點與關(guān)鍵點,將實際場景的物體與其CAD模型相對應,并通過最小二乘法解算物體模型到相機坐標系下的轉(zhuǎn)換關(guān)系,即為物體的六自由度姿態(tài)。
進一步地,所述步驟(1)包括以下子步驟:
(1.1)根據(jù)RGB-D相機獲取RGB圖像,將所述RGB圖像與深度圖像進行對齊,以獲取對齊的深度圖像;
(1.2)結(jié)合標定好的RGB-D相機內(nèi)部參數(shù),將對齊的深度圖像轉(zhuǎn)換為場景點云;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于之江實驗室,未經(jīng)之江實驗室許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211419607.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種丹皮高產(chǎn)栽培方法
- 下一篇:松料裝置及燒結(jié)機





