[發(fā)明專利]基于深度學(xué)習(xí)的RGB-D三維物體檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810163104.2 | 申請(qǐng)日: | 2018-02-26 |
| 公開(公告)號(hào): | CN108257139B | 公開(公告)日: | 2020-09-08 |
| 發(fā)明(設(shè)計(jì))人: | 呂科;檀彥豪;薛健;默罕默德·蒙塔塞爾·拉赫曼 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院大學(xué) |
| 主分類號(hào): | G06T7/13 | 分類號(hào): | G06T7/13 |
| 代理公司: | 北京知呱呱知識(shí)產(chǎn)權(quán)代理有限公司 11577 | 代理人: | 武媛;呂學(xué)文 |
| 地址: | 100049 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) rgb 三維 物體 檢測(cè) 方法 | ||
1.基于深度學(xué)習(xí)的RGB-D三維物體檢測(cè)方法,其特征在于,所述檢測(cè)方法包括:
步驟一:對(duì)RGB-D圖像進(jìn)行標(biāo)注,獲取標(biāo)注后的RGB-D圖像數(shù)據(jù)集,將數(shù)據(jù)集作為三維物體檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練樣本和測(cè)試樣本;
步驟二:構(gòu)建三維物體檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)模型,將訓(xùn)練樣本和測(cè)試樣本輸入三維物體檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)模型中;
步驟三:設(shè)置卷積神經(jīng)網(wǎng)絡(luò)模型的超參數(shù),通過Caffe訓(xùn)練三維物體檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)模型,當(dāng)代價(jià)損失函數(shù)減少到理想程度且訓(xùn)練達(dá)到所要求的最大迭代次數(shù)時(shí),生成訓(xùn)練模型;
步驟四:將RGB-D圖像數(shù)據(jù)集輸入至訓(xùn)練完畢的模型中,輸出三維物體檢測(cè)結(jié)果;
所述步驟二中,三維物體檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建方法為:
a)使用兩個(gè)VGG-16卷積神經(jīng)網(wǎng)絡(luò)模型作為特征提取模型,RGB圖和其對(duì)應(yīng)的預(yù)處理過后的深度圖為其輸入,其中對(duì)第四個(gè)卷積層后的輸出有兩個(gè)不同分支操作:第一個(gè)分支是先進(jìn)入池化層再進(jìn)入第五個(gè)卷積層,第二個(gè)分支是直接進(jìn)入第五個(gè)卷積層;
b)將第二個(gè)分支輸出結(jié)果作為多模態(tài)混合區(qū)域建議網(wǎng)絡(luò)的輸入,進(jìn)行二維區(qū)域檢測(cè)建議網(wǎng)絡(luò)和物體立體空間中心點(diǎn)計(jì)算;
c)將步驟a)第一分支的輸出和步驟b)的輸出分別輸入到不同的感興趣區(qū)域?qū)樱渲胁襟Eb)首先輸出到ROIS-Context層和ROIS層,再輸入到感興趣區(qū)域?qū)樱鞲信d趣區(qū)域?qū)又g分別提供不同尺度的特征,最后的輸出進(jìn)行融合輸入到全連接層。
2.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的RGB-D三維物體檢測(cè)方法,其特征在于,所述步驟一中,RGB-D圖像數(shù)據(jù)集為NYU Depth Dataset V2數(shù)據(jù)集,RGB-D圖像數(shù)據(jù)集通過Microsoft Kinect深度相機(jī)采集的各種室內(nèi)場(chǎng)景的RGB-D圖像組成。
3.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的RGB-D三維物體檢測(cè)方法,其特征在于,所述步驟一中還包括,對(duì)RGB-D圖像數(shù)據(jù)集使用濾波器通過雙邊濾波算法進(jìn)行濾波。
4.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的RGB-D三維物體檢測(cè)方法,其特征在于,所述步驟b)中,二維區(qū)域檢測(cè)建議網(wǎng)絡(luò)輸出為
其中,x、y、w、h代表二維邊界框的中心點(diǎn)坐標(biāo)、邊界框的寬和高,xa、ya、wa、ha為對(duì)應(yīng)的真值;
二維區(qū)域檢測(cè)建議網(wǎng)絡(luò)的損失函數(shù)為:
L(p,p*,t,t*)=Lcls(p,p*)+λp*Lreg(t,t*)
其中,p表示二維邊界框中為物體的概率,p*表示其對(duì)應(yīng)的真值,Lreg使用Smooth L1損失,t表示區(qū)域檢測(cè)建議網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的RGB-D三維物體檢測(cè)方法,其特征在于,所述步驟b)中,物體立體空間中心點(diǎn)計(jì)算通過由二維區(qū)域檢測(cè)建議網(wǎng)絡(luò)所輸出二維物體區(qū)域建議映射到原始深度圖像上,然后計(jì)算降采樣后深度圖像的中間值得出;
多模態(tài)混合區(qū)域建議網(wǎng)絡(luò)的最后輸出三維物體檢測(cè)區(qū)域建議網(wǎng)絡(luò)為t=(tx,ty,tz,tl,tw,th,tθ),
tθ=θgt×π/180
其中,x,y,z表示三維邊界框的中心點(diǎn)坐標(biāo),l,w,h表示三維邊界框的長(zhǎng)、寬、高,θ表示物體的方向角。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院大學(xué),未經(jīng)中國(guó)科學(xué)院大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810163104.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 使用幾個(gè)視頻信號(hào)源的視頻設(shè)備和控制該視頻設(shè)備的方法
- 用于對(duì)RGB圖像編碼和解碼的方法和設(shè)備
- 調(diào)整圖像亮度和對(duì)比度的方法及其裝置
- 調(diào)整圖像飽和度的方法及其裝置
- RGB值與色號(hào)信息映射關(guān)系的確定方法及裝置
- 圖像飽和度調(diào)整方法、裝置、存儲(chǔ)介質(zhì)及終端
- 用于RGB-D攝像系統(tǒng)與雙目顯像系統(tǒng)的匹配方法及其相關(guān)系統(tǒng)
- RGB-D模組的校準(zhǔn)系統(tǒng)及其設(shè)備和方法
- 一種RGB芯片、芯片安裝方法及LED顯示屏
- 一種消除透明圖片水波紋的方法和裝置





