[發(fā)明專利]基于深度學(xué)習(xí)的RGB-D三維物體檢測方法有效
| 申請?zhí)枺?/td> | 201810163104.2 | 申請日: | 2018-02-26 |
| 公開(公告)號: | CN108257139B | 公開(公告)日: | 2020-09-08 |
| 發(fā)明(設(shè)計)人: | 呂科;檀彥豪;薛健;默罕默德·蒙塔塞爾·拉赫曼 | 申請(專利權(quán))人: | 中國科學(xué)院大學(xué) |
| 主分類號: | G06T7/13 | 分類號: | G06T7/13 |
| 代理公司: | 北京知呱呱知識產(chǎn)權(quán)代理有限公司 11577 | 代理人: | 武媛;呂學(xué)文 |
| 地址: | 100049 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) rgb 三維 物體 檢測 方法 | ||
本發(fā)明公開了基于深度學(xué)習(xí)的RGB?D三維物體檢測方法,對RGB?D圖像進(jìn)行標(biāo)注,獲取標(biāo)注后的RGB?D圖像數(shù)據(jù)集,將數(shù)據(jù)集作為三維物體檢測卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練樣本和測試樣本;構(gòu)建三維物體檢測卷積神經(jīng)網(wǎng)絡(luò)模型,將訓(xùn)練樣本和測試樣本輸入三維物體檢測卷積神經(jīng)網(wǎng)絡(luò)模型中;設(shè)置卷積神經(jīng)網(wǎng)絡(luò)模型的超參數(shù),通過Caffe訓(xùn)練三維物體檢測卷積神經(jīng)網(wǎng)絡(luò)模型,當(dāng)代價損失函數(shù)減少到理想程度且訓(xùn)練達(dá)到所要求的最大迭代次數(shù)時,生成訓(xùn)練模型;將RGB?D圖像數(shù)據(jù)集輸入至訓(xùn)練完畢的模型中,輸出三維物體檢測結(jié)果。本發(fā)明比現(xiàn)有三維物體檢測方法速度快、準(zhǔn)確率高。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)視覺技術(shù)領(lǐng)域,具體涉及一種基于深度學(xué)習(xí)的RGB-D三維物體檢測方法。
背景技術(shù)
物體檢測是計算機(jī)視覺領(lǐng)域的一個基本但極具挑戰(zhàn)的研究。在過去的幾年里,由于可以輕易獲取大量標(biāo)注過的圖像數(shù)據(jù),加之深度卷積神經(jīng)網(wǎng)絡(luò)算法的不斷進(jìn)步,二維物體檢測性能越來越好。二維物體檢測通常是在圖像中識別和定位到物體后,緊緊圍繞物體圈出一個矩形框來表示物體在圖像中所在位置。但是真實的世界是三維世界,傳統(tǒng)的二維物體檢測在三維世界里會產(chǎn)生很多問題,首先,二維物體檢測僅僅得到物體所在圖像中的平面位置信息,缺少物體在真實世界的三維信息;其次,在復(fù)雜場景下,如遮擋,則二維物體檢測的效果則不是很好。隨著科技的發(fā)展,深度相機(jī)的廣泛應(yīng)用,且由于傳統(tǒng)二維物體檢測的不足,三維物體檢測應(yīng)運而生。三維物體檢測通過識別和定位三維物體,得到物體的三維信息,緊緊圍繞物體圈出一個立方體框來表示物體在真實世界中的位置。三維物體檢測在智能機(jī)器人、自動駕駛、增強(qiáng)現(xiàn)實等領(lǐng)域都有著重要的應(yīng)用價值。然而,由于三維物體檢測較二維物體檢測更復(fù)雜、計算量更大,現(xiàn)有的三維物體檢測方法的速度慢、準(zhǔn)確率低。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于深度學(xué)習(xí)的RGB-D深度圖像三維物體檢測方法,該方法比現(xiàn)有三維物體檢測方法速度快、準(zhǔn)確率高。
為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:基于深度學(xué)習(xí)的RGB-D三維物體檢測方法,所述檢測方法包括:
步驟一:對RGB-D圖像進(jìn)行標(biāo)注,獲取標(biāo)注后的RGB-D圖像數(shù)據(jù)集,將數(shù)據(jù)集作為三維物體檢測卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練樣本和測試樣本;
步驟二:構(gòu)建三維物體檢測卷積神經(jīng)網(wǎng)絡(luò)模型,將訓(xùn)練樣本和測試樣本輸入三維物體檢測卷積神經(jīng)網(wǎng)絡(luò)模型中;
步驟三:設(shè)置卷積神經(jīng)網(wǎng)絡(luò)模型的超參數(shù),通過Caffe訓(xùn)練三維物體檢測卷積神經(jīng)網(wǎng)絡(luò)模型,當(dāng)代價損失函數(shù)減少到理想程度且訓(xùn)練達(dá)到所要求的最大迭代次數(shù)時,生成訓(xùn)練模型;
步驟四:將RGB-D圖像數(shù)據(jù)集輸入至訓(xùn)練完畢的模型中,輸出三維物體檢測結(jié)果。
如上所述的基于深度學(xué)習(xí)的RGB-D三維物體檢測方法,所述步驟一中,RGB-D圖像數(shù)據(jù)集為NYU Depth Dataset V2數(shù)據(jù)集,RGB-D圖像數(shù)據(jù)集通過Microsoft Kinect深度相機(jī)采集的各種室內(nèi)場景的RGB-D圖像組成。
如上所述的基于深度學(xué)習(xí)的RGB-D三維物體檢測方法,所述步驟一中還包括,對RGB-D圖像數(shù)據(jù)集使用濾波器通過雙邊濾波算法進(jìn)行濾波。
如上所述的基于深度學(xué)習(xí)的RGB-D三維物體檢測方法,所述步驟二中,三維物體檢測卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建方法為:
a)使用兩個VGG-16卷積神經(jīng)網(wǎng)絡(luò)模型作為特征提取模型,RGB圖和其對應(yīng)的預(yù)處理過后的深度圖為其輸入,其中對第四個卷積層后的輸出有兩個不同分支操作:第一個分支是先進(jìn)入池化層再進(jìn)入第五個卷積層,第二個分支是直接進(jìn)入第五個卷積層;
b)將第二個分支輸出結(jié)果作為多模態(tài)混合區(qū)域建議網(wǎng)絡(luò)的輸入,所述多模態(tài)混合區(qū)域建議網(wǎng)絡(luò)包括:二維區(qū)域檢測建議網(wǎng)絡(luò)和物體立體空間中心點計算,
二維區(qū)域檢測建議網(wǎng)絡(luò)輸出為
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院大學(xué),未經(jīng)中國科學(xué)院大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810163104.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





