[發(fā)明專利]一種場景點云語義分割方法有效
| 申請?zhí)枺?/td> | 201811204443.7 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109410307B | 公開(公告)日: | 2022-09-20 |
| 發(fā)明(設計)人: | 李坤;楊鑫;尹寶才;張強;魏小鵬 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06T15/30 | 分類號: | G06T15/30;G06N3/04;G06N3/08 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 景點 語義 分割 方法 | ||
本發(fā)明屬于計算機視覺技術領域,提供了一種場景點云語義分割方法,設計基于深度學習技術的大規(guī)模密集場景點云語義分割模型的框架,對于輸入的大規(guī)模密集場景點云,能夠在信息不丟失的情況下將點云的三維信息轉化為卷積可以直接處理的二維信息,并結合圖像語義分割的技術來完成點云語義分割的任務。在這種框架下,能有效解決大規(guī)模密集場景點云的語義分割任務。本發(fā)明的方法得到的場景點云的語義分割結果可以直接利用在機器人導航、自動駕駛等任務。并且該方法在非人工合成的自然場景中效果尤其顯著。
技術領域
本發(fā)明屬于計算機視覺技術領域,尤其涉及基于深度學習對大規(guī)模密集型點云場景進行語義分割的方法。
背景技術
利用卷積神經(jīng)網(wǎng)絡處理二維圖像的方法主導著現(xiàn)代計算機視覺的發(fā)展。其成功的關鍵因素是卷積在圖像上的有效處理。卷積是在圖像中的規(guī)則網(wǎng)格上定義的,該規(guī)則網(wǎng)格支持卷積操作極其高效的實現(xiàn)。這種特性使得可以使用強大的深層體系結構來對高分辨率的大型數(shù)據(jù)集進行處理。
當對大規(guī)模的三維場景進行分析時,上述方法的直接擴展是在體素網(wǎng)格上進行三維卷積。然而,這種基于體素的方法具有很大的局限性,包括內(nèi)存消耗的立方增長和計算效率等問題。出于這個原因,基于體素的卷積神經(jīng)網(wǎng)絡多在低分辨率的體素網(wǎng)格上運行,這限制了它們的預測精度。可以通過基于八叉樹的技術來緩解這些問題,該技術在八叉樹上定義卷積并且能夠處理稍高分辨率的數(shù)據(jù)。然而,這些仍不足以保證高效地分析大型三維場景。
RGB-D相機和Li-DAR等3D傳感器捕獲的數(shù)據(jù)通常代表物體的表面:即一種嵌入到三維空間中的二維結構。這與真正的體素形態(tài)的三維數(shù)據(jù)形成對比,例如醫(yī)療圖像。用于分析此類數(shù)據(jù)的經(jīng)典特征均將點云視為一種物體的潛在表面結構,而并不將此數(shù)據(jù)視作體素。
基于體素的三維數(shù)據(jù)分析方法的弊端是顯而易見的。最近的一些研究認為,基于體素的三維數(shù)據(jù)結構不是三維卷積的最自然的形式,并提出了基于無序點集、圖結構和球形表面結構的替代方法。不幸的是,這些方法都有其自身的缺陷,例如對局部結構具有限敏感性或依賴限制性的拓撲假設。
(1)三維點云語義分割
三維數(shù)據(jù)的場景理解,包括點云語義分割,在計算機視覺中具有悠久的歷史。開創(chuàng)性的方法是基于手工制作的特征的,它適用于航空Li-DAR數(shù)據(jù)。這些方法也可以與高級架構相結合。比較流行的預測流程利用了圖形學的模型,包括條件隨機場。近年來同樣有一些用于交互式的點云語義分割的方法被提出。
(2)深度學習在三維數(shù)據(jù)上的發(fā)展
近年來,計算機視覺領域的深度學習革命已經(jīng)擴展到了三維數(shù)據(jù)分析,一些用于處理三維數(shù)據(jù)的深度學習方法被提出。
用于深度學習的三維數(shù)據(jù)的常見表示是體素網(wǎng)格。但三次方級別的時間和空間復雜度,這使得這些方法只能以低分辨率運行,并且精度有限。為了克服這一局限性,研究人員提出了基于分層空間數(shù)據(jù)結構的表示,如八叉樹和Kd-Tree,它們具有更好的存儲和計算效率,因此可以處理更高的分辨率的數(shù)據(jù)。
其他的一些深度學習網(wǎng)絡的應用將RGB-D圖像作為輸入,之后用全卷積神經(jīng)網(wǎng)絡或者基于圖的神經(jīng)網(wǎng)絡來進行處理,但通常不適用于傳感器視角未知的非結構化點云。為了解決這個問題,Boulch等人使用隨機放置的虛擬攝像機從點云渲染圖像,并用這些圖片訓練卷積神經(jīng)網(wǎng)絡。在具有固定相機視角的更受控制的設置中,多視圖方法成功用于形狀分割,形狀識別和形狀合成。
齊等人提出了一種用于分析無序點云的網(wǎng)絡,該網(wǎng)絡對點進行獨立進行處理并使用最大池化來聚合上下文的信息。但是由于點對之間的通信非常弱,因此當該網(wǎng)絡應用于具有復雜布局的大規(guī)模場景時,這種方法會遇到很多困難。
發(fā)明內(nèi)容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經(jīng)大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811204443.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





