[發明專利]一種語義場景補全系統與方法在審
| 申請號: | 201811129666.1 | 申請日: | 2018-09-27 |
| 公開(公告)號: | CN109447923A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 劉世策;胡瑜;曾一鳴;唐乾坤;金貝貝;韓銀和;李曉維 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06T5/50 | 分類號: | G06T5/50;G06T7/10;G06N3/04;G06N3/08 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義場景 語義分割 彩色圖像 深度圖像 圖像 三維結構 訓練數據 映射關系 標注 三維空間 卷積神經網絡 離散化處理 補全系統 結果投影 圖像輸入 相機參數 全標簽 像素 標簽 拍攝 輸出 | ||
本發明涉及一種語義場景補全方法和系統,包括:獲取已標注的彩色圖像和深度圖像,作為訓練數據,其中彩色圖像和深度圖像已標注語義分割標簽和語義場景補全標簽;使用訓練數據訓練卷積神經網絡,得到語義分割模型和語義場景補全模型,將待語義場景補全的待補全圖像輸入至語義分割模型,得到語義分割結果;根據拍攝彩色圖像的相機參數和深度圖像,得到彩色圖像中像素和深度圖像中體素的映射關系,根據映射關系將語義分割結果投影到三維空間,得到待補全圖像的語義場景表面;對語義場景表面進行離散化處理后輸入至語義場景補全模型,得到待補全圖像的三維結構和待補全圖像中物體的類別,輸出三維結構和類別作為待補全圖像的語義場景補全結果。
技術領域
本發明涉及三維語義場景補全技術領域,具體涉及一種基于卷積神經網絡的適用多傳感器的三維語義場景補全系統與方法。
背景技術
語義場景補全,即三維場景的恢復和語義理解,一直是計算機視覺技術當中的一個重要的問題。例如:機器人只有像人一樣擁有感知場景三維結構和理解三維物體的能力,才能與周圍的環境做更多的交互。因此,如果能很好的恢復場景的三維結構和得到場景中的物體類別,將會對人工智能的發展起到極大的促進作用。此外,語義場景補全還可廣泛用于增強現實、路徑規劃與導航、環境地圖的構建等。
目前,語義場景補全主要通過兩種方式實現:
一種是基于模型匹配的方式補全語義場景。通過對彩色圖像進行超像素的分割,結合深度圖像對每一部分進行模型匹配。此處用到的模型來源于計算機輔助設計(Computer Aided Design,CAD)模型庫,其中包含大量的物體模型。該方法的關鍵在于圖像層面的像素分割和模型的搜索和匹配效率。針對前者,分割的不準確會直接導致用錯誤的模板在模型庫中查找,影響最后效果;對于后者,太小的模型庫可能導致每個模型不精確,而太大的模型庫會導致搜索時間太長。對此,另一些方法直接舍棄利用模型庫,取而代之的是使用三維長方體或球體候選框代表物體的結構。但是,顯然地,得到的物體損失了大量的細節。
另一種方式是直接在體素空間對場景中的每個體素進行類別解釋(某個類別或空)。該類方法避免了使用(Computer Aided Design,CAD)模型庫以及模型檢索過程。早期工作通常通過大量的訓練集,提取人工特征以及使用條件隨機場來建模物體的結構,但是它們具有主觀性,并且時間消耗巨大。此外,利用多幅圖像來恢復完整的場景也是一個傳統且常用的途徑。可使用運動恢復結構(Structure from Motion,SfM)或者同時定位與建圖(Simultaneous Location And Mapping,SLAM)技術來恢復高精度的場景。然而,需要連續多幅圖像是此類方法的特點。近期,基于單幅圖像的語義場景補全技術被提出,并且能通過卷積神經網絡的方法實現端到端的學習。
單幅深度圖像的語義場景補全技術首先被普林斯頓大學提出。包括依據單張深度圖像,通過設計SSCNet,恢復出整個場景的語義補全表示,并且為后來的研究者提供了一種參考基準。相應的,如何引入特征豐富的彩色圖像也成為研究者們的重點研究問題。
總結起來,當前語義場景補全存在如下的問題:直接在三維空間中提取彩色圖像和深度圖像的特征會更具有難度,因為存儲和計算時間的限制使場景的體素表示分辨率不高,從而導致提取優質特征的難度會變得更大;針對RGB或Depth等不同的輸入,采用定制化的網絡結構會導致可擴展性很差,不利于將來更多的傳感器的使用;緊耦合的網絡設計模式使得將來性能的提高非常的困難,如果希望整體性能提高,需要改變整個框架的結構。
為了充分挖掘彩色圖像和深度圖像的特征,需要利用圖像像素稠密的特點,獲取大量更有代表性的特征,后將特征用于三維空間的重建以及物體類別的識別。因此,我們通過實驗發現,對圖像先進行2D卷積,然后投影到3D空間,最后進行3D卷積,這是一種更能有效利用圖像稠密性的一種方法。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811129666.1/2.html,轉載請聲明來源鉆瓜專利網。





