[發(fā)明專(zhuān)利]一種能應(yīng)對(duì)復(fù)雜背景并且更精確的三維姿態(tài)估計(jì)算法在審
| 申請(qǐng)?zhí)枺?/td> | 202211077522.2 | 申請(qǐng)日: | 2022-09-05 |
| 公開(kāi)(公告)號(hào): | CN115482448A | 公開(kāi)(公告)日: | 2022-12-16 |
| 發(fā)明(設(shè)計(jì))人: | 杜宇;劉冬;張犇;李金鐘;田小靜;叢明 | 申請(qǐng)(專(zhuān)利權(quán))人: | 大連交通大學(xué);大連理工大學(xué) |
| 主分類(lèi)號(hào): | G06V10/82 | 分類(lèi)號(hào): | G06V10/82;G06V10/774;G06V20/64 |
| 代理公司: | 遼寧鴻文知識(shí)產(chǎn)權(quán)代理有限公司 21102 | 代理人: | 許明章;王海波 |
| 地址: | 116028 遼寧*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 應(yīng)對(duì) 復(fù)雜 背景 并且 精確 三維 姿態(tài) 估計(jì) 算法 | ||
1.一種能應(yīng)對(duì)復(fù)雜背景并且更精確的三維姿態(tài)估計(jì)算法,其特征在于,包括以下步驟:
(1)采集包含檢測(cè)目標(biāo)的若干張圖像;
(2)依據(jù)LineMod數(shù)據(jù)集格式制作訓(xùn)練用數(shù)據(jù)集;
(3)對(duì)YOLO-6D算法進(jìn)行改進(jìn),改進(jìn)具體包括以下兩部分:
將原YOLO-6D算法中的YOLOV2檢測(cè)網(wǎng)絡(luò)變更為YOLOV3網(wǎng)絡(luò),并融入注意力模塊作為檢測(cè)網(wǎng)絡(luò);網(wǎng)絡(luò)的輸入為單張RGB圖像,將圖像均勻劃分為S×S個(gè)規(guī)則的cell,經(jīng)檢測(cè)網(wǎng)絡(luò)后每個(gè)cell可輸出一個(gè)多維向量,存放8個(gè)3D包絡(luò)框角點(diǎn)及物體中線(xiàn)點(diǎn)坐標(biāo)信息,目標(biāo)物體的分類(lèi)概率及整體置信度;網(wǎng)絡(luò)包含三個(gè)預(yù)測(cè)特征層Box1、Box2和Box3,并在特征層Box1中融入注意力機(jī)制,使其可以在空間上融合更多的特征;
經(jīng)上述檢測(cè)網(wǎng)絡(luò)后,所有的cell都會(huì)有一個(gè)置信度,選取置信度最高的cell,以該cell為基點(diǎn)選取正方形cell群;置信度最高的cell可能出現(xiàn)的位置有三種,cell群的選擇也會(huì)對(duì)應(yīng)有3種方式;對(duì)選中的9個(gè)cell做基于RANSAC的EpnP位姿估計(jì),RANSAC使用投票機(jī)制來(lái)尋找優(yōu)化的擬合結(jié)果;
(4)使用步驟(2)得到的數(shù)據(jù)集,采用步驟(3)改進(jìn)后的算法訓(xùn)練,得到目標(biāo)檢測(cè)模型;訓(xùn)練目標(biāo)檢測(cè)模型的過(guò)程中,使用置信度函數(shù)c(x)評(píng)估目標(biāo)物體的預(yù)測(cè)姿態(tài)與真實(shí)姿態(tài)間的偏差情況:
(5)使用訓(xùn)練得到的目標(biāo)檢測(cè)模型對(duì)待檢測(cè)目標(biāo)進(jìn)行檢測(cè),獲取目標(biāo)物體的分類(lèi)信息以及6D姿態(tài)信息;檢測(cè)的過(guò)程中需要進(jìn)行坐標(biāo)偏移,保證目標(biāo)位于圖像劃分后的cell格子內(nèi)。
2.根據(jù)權(quán)利要求1所述的一種物體檢測(cè)與姿態(tài)估計(jì)方法,其特征在于,所述的步驟(3)中,選用SENet網(wǎng)絡(luò)作為融入的注意力機(jī)制,SENet網(wǎng)絡(luò)通過(guò)學(xué)習(xí)特征權(quán)重獲取每個(gè)特征圖的重要程度,能夠加大有效特征圖權(quán)重并降低無(wú)效特征圖權(quán)重;經(jīng)過(guò)SENet網(wǎng)絡(luò)后的圖像會(huì)分成兩支,其中一支經(jīng)卷積到13×13的第一個(gè)預(yù)測(cè)特征層,使用1×1的卷積核預(yù)測(cè)器進(jìn)行預(yù)測(cè),另外一支會(huì)通往另一個(gè)卷積層,再經(jīng)上采樣,高和寬會(huì)變成原來(lái)的兩倍即26×26,并與網(wǎng)絡(luò)中Box2內(nèi)的殘差網(wǎng)絡(luò)輸出進(jìn)行融合;與此同時(shí),拼接之后的矩陣也經(jīng)特征提取器處理,分為兩個(gè)分支,其中一支通向第二個(gè)預(yù)測(cè)特征層,另一支通往1×1卷積層,進(jìn)行上采樣,再與Box3內(nèi)殘差網(wǎng)絡(luò)的輸出融合;融合的結(jié)果通過(guò)特征提取器,再經(jīng)卷積得到第三個(gè)預(yù)測(cè)特征層。
3.根據(jù)權(quán)利要求1所述的一種物體檢測(cè)與姿態(tài)估計(jì)方法,其特征在于,所述的步驟(4)中,基于歐式距離使用如下述公式所示的置信度函數(shù)c(x)評(píng)估目標(biāo)物體的預(yù)測(cè)姿態(tài)與真實(shí)姿態(tài)間的偏差情況;
其中,DT(x)代表歐式距離,dth表示置信度函數(shù)的像素閾值,α表示c(x)函數(shù)的銳利程度。
4.根據(jù)權(quán)利要求1所述的一種物體檢測(cè)與姿態(tài)估計(jì)方法,其特征在于,步驟(2)中所述的數(shù)據(jù)集中包括:包含待檢測(cè)目標(biāo)的若干張圖像、添加的噪聲圖像、圖像掩碼以及每幅圖像對(duì)應(yīng)的標(biāo)注信息,其中標(biāo)注信息包括:圖像中是否包含檢測(cè)目標(biāo)、分類(lèi)信息以及待檢測(cè)目標(biāo)的空間信息。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于大連交通大學(xué);大連理工大學(xué),未經(jīng)大連交通大學(xué);大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211077522.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- EMI應(yīng)對(duì)部件和EMI應(yīng)對(duì)方法
- 靜電應(yīng)對(duì)部件
- 頁(yè)面錯(cuò)誤應(yīng)對(duì)機(jī)制
- 靜電應(yīng)對(duì)元件
- 靜電應(yīng)對(duì)元件
- 待客裝置、待客方法以及待客系統(tǒng)
- 應(yīng)對(duì)者分配系統(tǒng)
- 應(yīng)對(duì)數(shù)據(jù)收集系統(tǒng)、顧客應(yīng)對(duì)系統(tǒng)及程序
- 顧客應(yīng)對(duì)控制系統(tǒng)、顧客應(yīng)對(duì)系統(tǒng)及程序
- 信息顯示系統(tǒng)和信息顯示方法





