[發(fā)明專利]一種實(shí)時(shí)三維大場(chǎng)景多對(duì)象實(shí)例分割的方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010097978.X | 申請(qǐng)日: | 2020-02-17 |
| 公開(公告)號(hào): | CN111311611B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 方璐;韓磊;鄭添;王好謙 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué)深圳國(guó)際研究生院 |
| 主分類號(hào): | G06T7/11 | 分類號(hào): | G06T7/11;G06N3/0464 |
| 代理公司: | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 518055 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實(shí)時(shí) 三維 場(chǎng)景 對(duì)象 實(shí)例 分割 方法 | ||
本發(fā)明提供一種實(shí)時(shí)三維大場(chǎng)景多對(duì)象實(shí)例分割的方法,包括:S1:通過(guò)傳感器掃描場(chǎng)景得到的RGB圖和深度圖構(gòu)建三維幾何模型;S2:通過(guò)基于多任務(wù)學(xué)習(xí)的三維卷積神經(jīng)網(wǎng)絡(luò)提取所述三維幾何模型的三維特征;S3:從所述三維特征中檢測(cè)物體。全面地利用了豐富的三維信息,實(shí)例分割的準(zhǔn)確度更高。利用了三維空間中物體無(wú)遮擋、無(wú)尺度不確定性的屬性,提出體積項(xiàng)和空間項(xiàng),進(jìn)一步提高準(zhǔn)確度。通過(guò)采用稀疏卷積神經(jīng)網(wǎng)絡(luò)并對(duì)卷積網(wǎng)絡(luò)的計(jì)算的加速,可以達(dá)到實(shí)時(shí)運(yùn)行的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及三維模型處理技術(shù)領(lǐng)域,尤其涉及一種實(shí)時(shí)三維大場(chǎng)景多對(duì)象實(shí)例分割的方法。
背景技術(shù)
三維模型的語(yǔ)義分割和物體檢測(cè)是計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域的重要問(wèn)題。三維語(yǔ)義分割的目標(biāo)是從三維場(chǎng)景中識(shí)別并定位物體,并為三維點(diǎn)云中的每一個(gè)點(diǎn)判斷其所屬的物體類別。把三維語(yǔ)義分割和三維物體檢測(cè)結(jié)合起來(lái)的技術(shù)稱為三維實(shí)例分割。三維實(shí)例分割要求算法不僅可以判斷每一個(gè)點(diǎn)所屬的類別,同時(shí)還可以區(qū)分同一類別中的不同物體。
現(xiàn)有的方法分為兩類。第一類是基于二維實(shí)例分割神經(jīng)網(wǎng)絡(luò)的方法。這類方法利用較為成熟的二維卷積神經(jīng)網(wǎng)絡(luò),在不同的二維視角下進(jìn)行實(shí)例分割,并將分割結(jié)果投影到三維空間中,對(duì)于重疊的區(qū)域?qū)Y(jié)果進(jìn)行投票或使用CRF等方法,最終得到三維的實(shí)例分割結(jié)果。第二類方法是直接采用三維卷積神經(jīng)網(wǎng)絡(luò)。這類方法利用Sparse?ConvolutionalNetworks或PointNet++等三維特征提取器,并采用傳統(tǒng)二維實(shí)例分割的網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建三維實(shí)例分割模型。
以上兩種方法都有各自的弊端。對(duì)第一種方法,從三維模型投影到二維視角的過(guò)程中,不光損失了幾何信息,全局信息,還會(huì)造成物體的遮擋或殘缺,因此實(shí)例分割的精度較差。對(duì)于第二類方法,現(xiàn)有的方法沒(méi)有有效地利用三維場(chǎng)景地內(nèi)在屬性,即相對(duì)與二維圖像來(lái)說(shuō),三維模型不存在物體遮擋和尺度不確定性。除此之外,現(xiàn)有的方法由于計(jì)算效率不足,無(wú)法實(shí)現(xiàn)實(shí)時(shí)計(jì)算。
以上背景技術(shù)內(nèi)容的公開僅用于輔助理解本發(fā)明的構(gòu)思及技術(shù)方案,其并不必然屬于本專利申請(qǐng)的現(xiàn)有技術(shù),在沒(méi)有明確的證據(jù)表明上述內(nèi)容在本專利申請(qǐng)的申請(qǐng)日已經(jīng)公開的情況下,上述背景技術(shù)不應(yīng)當(dāng)用于評(píng)價(jià)本申請(qǐng)的新穎性和創(chuàng)造性。
發(fā)明內(nèi)容
本發(fā)明為了解決現(xiàn)有的問(wèn)題,提供一種實(shí)時(shí)三維大場(chǎng)景多對(duì)象實(shí)例分割的方法。
為了解決上述問(wèn)題,本發(fā)明采用的技術(shù)方案如下所述:
一種實(shí)時(shí)三維大場(chǎng)景多對(duì)象實(shí)例分割的方法,包括如下步驟:S1:通過(guò)傳感器掃描場(chǎng)景得到的RGB圖和深度圖構(gòu)建三維幾何模型;S2:通過(guò)基于多任務(wù)學(xué)習(xí)的三維卷積神經(jīng)網(wǎng)絡(luò)提取所述三維幾何模型的三維特征;S3:從所述三維特征中檢測(cè)物體。
優(yōu)選地,通過(guò)構(gòu)建稀疏卷積層來(lái)構(gòu)建所述三維卷積神經(jīng)網(wǎng)絡(luò)。
優(yōu)選地,構(gòu)建稀疏卷積層包括如下步驟:S21:將所述傳感器的點(diǎn)云按照三維坐標(biāo)分割為若干個(gè)M*M*M的方格,M代表每個(gè)所述方格的邊長(zhǎng);S22:判斷每個(gè)所述方格內(nèi)是否存在點(diǎn)云,若存在點(diǎn)云則為有效方格,保留;若不存在點(diǎn)云則為空的方格,舍棄;S23:對(duì)所有所述有效方格并行執(zhí)行稀疏卷積。
優(yōu)選地,使用圖形處理器對(duì)所有所述有效的方格并行執(zhí)行稀疏卷積,具體包括:所述有效方格中有N個(gè)三維點(diǎn),輸入通道數(shù)為I,輸出通道數(shù)為O,V是卷積核的空間體積,那么一層稀疏卷積操作需要的參數(shù)矩陣大小為I*O*V;將所述輸入通道數(shù)和所述輸出通道數(shù)以K為大小進(jìn)行拆分,每個(gè)所述圖形處理器線程負(fù)責(zé)計(jì)算K個(gè)輸入通道與K*K*V的參數(shù)矩陣進(jìn)行卷積得到K個(gè)輸出通道。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)深圳國(guó)際研究生院,未經(jīng)清華大學(xué)深圳國(guó)際研究生院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010097978.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 實(shí)時(shí)解碼系統(tǒng)與實(shí)時(shí)解碼方法
- 實(shí)時(shí)穩(wěn)定
- 實(shí)時(shí)監(jiān)控裝置、實(shí)時(shí)監(jiān)控系統(tǒng)以及實(shí)時(shí)監(jiān)控方法
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)通信方法和實(shí)時(shí)通信系統(tǒng)
- 實(shí)時(shí)更新
- 實(shí)時(shí)內(nèi)核
- 用于通信網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)備及相關(guān)方法
- 實(shí)時(shí)量化方法及實(shí)時(shí)量化系統(tǒng)
- 一種三維彩色物品制作方法
- 三維內(nèi)容顯示的方法、裝置和系統(tǒng)
- 三維對(duì)象搜索方法、裝置及系統(tǒng)
- 三維會(huì)話數(shù)據(jù)展示方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種三維模型處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 用于基于分布式賬本技術(shù)的三維打印的去中心化供應(yīng)鏈
- 標(biāo)記數(shù)據(jù)的獲取方法及裝置、訓(xùn)練方法及裝置、醫(yī)療設(shè)備
- 一種基于5G網(wǎng)絡(luò)的光場(chǎng)三維浸入式體驗(yàn)信息傳輸方法及系統(tǒng)
- 用于機(jī)器人生產(chǎn)系統(tǒng)仿真的三維場(chǎng)景管理與文件存儲(chǔ)方法
- 基于三維形狀知識(shí)圖譜的三維模型檢索方法及裝置
- 電視場(chǎng)景切換的方法及電視
- 視頻場(chǎng)景控制系統(tǒng)及方法
- 場(chǎng)景開關(guān)及其場(chǎng)景開關(guān)構(gòu)件和場(chǎng)景圖標(biāo)卡組件
- 場(chǎng)景聯(lián)動(dòng)方法及場(chǎng)景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場(chǎng)景分類方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場(chǎng)景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場(chǎng)景分類識(shí)別系統(tǒng)及方法
- 一種虛擬場(chǎng)景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車圖像場(chǎng)景庫(kù)數(shù)據(jù)復(fù)雜度度量方法
- 場(chǎng)景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 對(duì)象選擇裝置、對(duì)象選擇程序及對(duì)象選擇方法
- 對(duì)象顯示裝置、對(duì)象顯示系統(tǒng)以及對(duì)象顯示方法
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象分析方法、對(duì)象分析設(shè)備及對(duì)象分析系統(tǒng)
- 對(duì)象索引方法、對(duì)象搜索方法及對(duì)象索引系統(tǒng)
- 對(duì)象分類方法和對(duì)象分類設(shè)備
- 對(duì)象庫(kù)中的對(duì)象簽名
- 對(duì)象追蹤方法、對(duì)象追蹤系統(tǒng)以及對(duì)象追蹤程序





