[發(fā)明專利]一種實時三維大場景多對象實例分割的方法有效
| 申請?zhí)枺?/td> | 202010097978.X | 申請日: | 2020-02-17 |
| 公開(公告)號: | CN111311611B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計)人: | 方璐;韓磊;鄭添;王好謙 | 申請(專利權(quán))人: | 清華大學(xué)深圳國際研究生院 |
| 主分類號: | G06T7/11 | 分類號: | G06T7/11;G06N3/0464 |
| 代理公司: | 深圳新創(chuàng)友知識產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實時 三維 場景 對象 實例 分割 方法 | ||
1.一種實時三維大場景多對象實例分割的方法,其特征在于,包括如下步驟:
S1:通過傳感器掃描場景得到的RGB圖和深度圖構(gòu)建三維幾何模型;
S2:通過基于多任務(wù)學(xué)習(xí)的三維卷積神經(jīng)網(wǎng)絡(luò)提取所述三維幾何模型的三維特征;
通過構(gòu)建稀疏卷積層來構(gòu)建所述三維卷積神經(jīng)網(wǎng)絡(luò);
構(gòu)建稀疏卷積層包括如下步驟:
S21:將所述傳感器的點云按照三維坐標(biāo)分割為若干個M*M*M的方格,M代表每個所述方格的邊長;
S22:判斷每個所述方格內(nèi)是否存在點云,若存在點云則為有效方格,保留;若不存在點云則為空的方格,舍棄;
S23:對所有所述有效方格并行執(zhí)行稀疏卷積;
S3:從所述三維特征中檢測物體;
包括:
S31:對所述三維幾何模型進行預(yù)分割,得到超體素;
S32:將得到超體素和三維特征一起輸入迭代算法,將相似度最高的兩個超體素合并,直到每個超體素都代表一個完整的物體。
2.如權(quán)利要求1所述的實時三維大場景多對象實例分割的方法,其特征在于,使用圖形處理器對所有所述有效方格并行執(zhí)行稀疏卷積,具體包括:所述有效方格中有N個三維點,輸入通道數(shù)為I,輸出通道數(shù)為O,V是卷積核的空間體積,那么一層稀疏卷積操作需要的參數(shù)矩陣大小為I*O*V;將所述輸入通道數(shù)和所述輸出通道數(shù)以K為大小進行拆分,每個所述圖形處理器線程負(fù)責(zé)計算K個輸入通道與K*K*V的參數(shù)矩陣進行卷積得到K個輸出通道。
3.如權(quán)利要求1所述的實時三維大場景多對象實例分割的方法,其特征在于,所述三維卷積神經(jīng)網(wǎng)絡(luò)包括:
下采樣部分,包含一系列卷積層、批標(biāo)準(zhǔn)化層、激活層和下采樣層;其中,所述下采樣層的步長為2,卷積核大小為3;
上采樣部分,包含一系列卷積層、批標(biāo)準(zhǔn)化層、激活層和上采樣層;其中,所述上采樣層步長為2,卷積核大小為3的反卷積層;
所述上采樣部分和所述下采樣部分是對稱的且級聯(lián);在每一個分辨率層面上,將所述下采樣層中的特征拼接到所述上采樣層的特征中;
所述上采樣層輸出的特征隨后被輸入多個不同的線性層中,所述線性層對應(yīng)不同的網(wǎng)絡(luò)任務(wù)項。
4.如權(quán)利要求3所述的實時三維大場景多對象實例分割的方法,其特征在于,所述三維卷積神經(jīng)網(wǎng)絡(luò)使用多任務(wù)學(xué)習(xí)的方式同時優(yōu)化所述網(wǎng)絡(luò)任務(wù)項,所述網(wǎng)絡(luò)任務(wù)項包括:
空間項:輸出每個體素到其所屬物體中心的位移向量;
嵌入項:為每個所述體素估計一個嵌入向量,隱式地表征其所屬的物體以及物體的種類;
互相關(guān)項:輸出所述空間項和所述嵌入項的置信度;
體積項:對每個所述體素,估計其所屬物體的大小;
語義分割項:輸出每個所述體素的語義標(biāo)簽得分。
5.如權(quán)利要求4所述的實時三維大場景多對象實例分割的方法,其特征在于,所述空間項、所述互相關(guān)項、所述體積項的損失函數(shù)為邏輯回歸損失函數(shù);
所述語義分割項的損失函數(shù)是交叉熵?fù)p失函數(shù);
所述嵌入項的損失函數(shù)如下:
其中,代表第c個物體實例的平均嵌入值,Si代表第c個物體實例中第i個體素所對應(yīng)的嵌入值,Lse為嵌入項對應(yīng)的損失項;Lvar表示同一物體內(nèi)嵌入向量的方差;Ldist表示不同物體內(nèi)的嵌入向量之間的差異;Lreg是正則化損失;δv和δd為參數(shù);Lvar和Ldist兩項分別用來保證屬于相同物體的體素嵌入項相互接近,并讓屬于不同物體的體素嵌入項距離較遠(yuǎn)。
6.如權(quán)利要求1所述的實時三維大場景多對象實例分割的方法,其特征在于,所述迭代算法基于如下公式計算相似度:
其中,S為語義項,D為空間項,σs,σd分別為分別為語義項、空間項的互相關(guān)項,r的定義如下:
其中,O為體積項,Oi表示第i個物體的體積項;|Ω|代表當(dāng)前超體素的體積,|Ωi|表示第i個物體內(nèi)的當(dāng)前超體素的體積;r的值作為迭代算法終止的判斷條件:如果r大于1,則還有所述超體素需要被合并。
7.如權(quán)利要求6所述的實時三維大場景多對象實例分割的方法,其特征在于,所述超體素的所述相似度w大于0.5時才能合并;且,所述超體素合并之后得到的所述物體需要滿足0.3r2。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)深圳國際研究生院,未經(jīng)清華大學(xué)深圳國際研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010097978.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種三維彩色物品制作方法
- 三維內(nèi)容顯示的方法、裝置和系統(tǒng)
- 三維對象搜索方法、裝置及系統(tǒng)
- 三維會話數(shù)據(jù)展示方法、裝置、存儲介質(zhì)和計算機設(shè)備
- 一種三維模型處理方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 用于基于分布式賬本技術(shù)的三維打印的去中心化供應(yīng)鏈
- 標(biāo)記數(shù)據(jù)的獲取方法及裝置、訓(xùn)練方法及裝置、醫(yī)療設(shè)備
- 一種基于5G網(wǎng)絡(luò)的光場三維浸入式體驗信息傳輸方法及系統(tǒng)
- 用于機器人生產(chǎn)系統(tǒng)仿真的三維場景管理與文件存儲方法
- 基于三維形狀知識圖譜的三維模型檢索方法及裝置





