[發明專利]用于2D卷積神經網絡的點云數據轉換方法和系統在審
| 申請號: | 201980070698.5 | 申請日: | 2019-11-06 |
| 公開(公告)號: | CN112912920A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 愛德華多·R·科拉爾·索托;埃赫桑·內扎達里亞;劉冰冰 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06T5/00 | 分類號: | G06T5/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 卷積 神經網絡 數據 轉換 方法 系統 | ||
描述了用于2D卷積神經網絡(convolutional neural network,CNN)的3D數據編碼方法和系統。將3D數據集編碼為一個或多個陣列的集合。通過將3D點的3D坐標投影到由已定義虛擬攝像頭參數集定義的2D圖像平面上,計算陣列的2D索引。虛擬攝像頭參數包括定義2D圖像平面的攝像頭投影矩陣。根據計算得到的2D索引,將點的每個3D坐標存儲在陣列中。提供編碼得到的陣列集合,用于輸入到2D CNN中進行訓練或推理。
技術領域
本公開涉及將3D點云數據編碼為可適用于2D卷積神經網絡的2D數據陣列集合,例如用于進行對象檢測、分類和分段。
背景技術
自動駕駛車輛可以使用不同的傳感器來感知其周圍環境,可以處理傳感器數據以在空間中生成數據點集,并且可以使用計算機視覺系統來處理數據點集,以便檢測和識別周圍環境中的感興趣對象(例如行人或其他汽車)。傳感器例如激光雷達和攝像頭(例如光學攝像頭)經常用于自動駕駛車輛,以感知車輛周圍環境中的對象。激光雷達和攝像頭具有不同的特點和優勢。例如,光學攝像頭感知環境中的對象,捕獲感知到的對象的圖像,并生成表示所捕獲圖像的2D圖像數據。然而,光學攝像頭在極端光照變化下(例如夜間或非常明亮的環境中)可能無法感知對象,并且可能僅限于捕獲二維(two-dimensional,2D)圖像。然而,光學攝像頭可能能夠感知距離光學攝像頭較遠的對象的圖像。激光雷達可以捕獲周圍環境的三維(three-dimensional,3D)信息,并在空間中生成表示所捕獲3D信息的數據點集。本領域中通常將三維空間中的數據點集稱為點云,并由激光雷達作為3D數據提供。盡管激光雷達可能能夠捕獲較寬區域的3D信息,但激光雷達可能無法檢測遠離激光雷達的小和/或窄的對象,并且可能具有有限的傳感分辨率,特別是在垂直方向上。因此,計算機視覺系統可以有益地同時使用從激光雷達接收的3D數據和從攝像頭接收的2D圖像。
已嘗試將激光雷達和2D圖像數據一起作為計算機視覺系統的輸入,并訓練這種系統學習如何進行對象檢測、分類和分段。計算機視覺系統實現了特征金字塔網絡聚合視圖對象檢測(Aggregate View Object Detection with Feature Pyramid Network,AVOD-FPN)算法,該算法對2D圖像數據和激光雷達數據分別進行特征提取,然后對用于對象檢測和分類的投影對應區域特征進行早期融合。然而,實現AVOD-FPN算法的計算機視覺系統需要為每個對象類別單獨訓練網絡(例如,一個網絡訓練用于檢測汽車,另一個網絡單獨訓練用于檢測行人),在實踐中,通常需要多個并行運行的計算設備來檢測多個對象類別。在其他計算機視覺系統中,多視點3D(Multi-View 3D,MV3D)算法將激光雷達數據投影到圓柱面,SqueezeSeg算法將激光雷達數據投影到球面。然而,這些算法中的投影幾何形狀可能難以與設計用于分析2D平面圖像的現有卷積神經網絡(convolved neural network,CNN)一起使用,并且可能難以將這些投影幾何形狀與2D光學圖像進行空間配準,且成本高昂。已開發出包括區域CNN(regional CNN,R-CNN)(例如掩碼R-CNN)的高精度計算機視覺系統,用于對從攝像頭接收的2D、平面、RGB圖像數據進行對象檢測、分類和分段。
期望能夠使用包括CNN的計算機視覺系統分析3D點云數據,其中CNN設計用于對2D圖像數據(例如表示2D RGB圖像的2D圖像數據)進行對象檢測、分類和分段。
發明內容
本公開提供了將3D點云數據編碼為陣列集合(例如3個2D陣列的集合)的方法和系統,所述陣列集合可以與2D CNN兼容,并可作為所述2D CNN(例如2D掩碼區域CNN(RegionalCNN,R-CNN)的輸入。所述陣列集合可以與2D圖像數據(例如RGB陣列的形式)相組合,所述組合數據可以用于訓練和/或作為2D CNN的輸入,所述2D CNN進行2D對象檢測、分類、回歸和分段。所述陣列集合也可以單獨用于訓練和/或作為2D CNN的輸入。在一些示例中,除了2D對象檢測、分類、回歸和分段,還可以進行3D語義分段和/或回歸。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980070698.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





