[發明專利]多模態自適應融合的三維目標檢測方法在審
| 申請號: | 201910837423.1 | 申請日: | 2019-09-05 |
| 公開(公告)號: | CN110543858A | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 袁媛;王琦;劉程堪 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/62 |
| 代理公司: | 61204 西北工業大學專利中心 | 代理人: | 王鮮凱<國際申請>=<國際公布>=<進入 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢測 三維目標 特征圖 自適應 算法 裁剪 三維空間 高層語義信息 計算復雜度 解碼器結構 兩階段檢測 車輛目標 全分辨率 網絡結構 細節信息 編碼器 多模態 計算量 檢測率 小物體 融合 截斷 點云 遮擋 | ||
本發明公開了一種多模態自適應融合的三維目標檢測方法,用于解決現有三維目標檢測方法檢測效率低的技術問題。技術方案是輸入RGB圖像以及BEV Map,首先使用FPN網絡結構,包含編碼器和解碼器結構,得到二者全分辨率的特征圖,用于結合底層細節信息和高層語義信息,然后通過特征裁剪提取兩個特征圖對應的特征進行裁剪并自適應融合,最后挑選出3D建議以實現3D物體檢測。整個過程是兩階段檢測,此外使用RGB圖像和點云作為原始輸入,減少了LIDAR FV輸入,降低了計算量,減少算法的計算復雜度,提高了三維空間車輛目標檢測的效率。這種算法有效提高了對小物體的檢測效果以及被遮擋車輛以及被截斷車輛的檢測率。
技術領域
本發明涉及一種三維目標檢測方法,特別涉及一種多模態自適應融合的三維目標檢測方法。
背景技術
文獻“X.Chen,H.Ma,J.Wan,B.Li,and T.Xia,Multi-view 3d object detectionnetwork for autonomous driving,in Proc.IEEE Conf.Conference on ComputerVision and Pattern Recognition,2017,pp.1907-1915.”提出了一種基于RGB圖像和LIDAR點云信息的三維目標檢測方法。該方法旨在實現高精度的三維目標檢測自主駕駛場景,提出多視圖3D網絡,即一個傳感器融合框架,將激光雷達點云和RGB圖像作為輸入,并預測定向三維邊界框。該網絡由兩個子網絡組成,用于3D對象建議生成和多視圖特征融合,區域提案網絡生成的三維候選框可以有效地從鳥瞰圖中表現三維點云,這是一種結合多個視圖區域特性的融合方案,并支持不同路徑中間層之間的交互。在具有挑戰性的KITTI基準測試集上的3D任務檢測取得了較為優秀的結果。文獻所述方法對于底層細節信息和高層語義信息的結合效果并不理想,因此對小物體的檢測效果并不好,比如對行人的檢測率,當使用車輛數據集進行實驗時,會影響被遮擋車輛以及被截斷車輛的檢測率,這種方法使用LIDARBEV(鳥瞰圖)和RGB圖像以及LIDARFV(前視圖)作為輸入,BEV(鳥瞰圖)和RGB圖像足夠很好地詮釋3D空間中的信息,這種方法中三個分支的預處理量和后續計算量太大,也會影響整個算法的檢測效率。
發明內容
為了克服現有三維目標檢測方法檢測效率低的不足,本發明提供一種多模態自適應融合的三維目標檢測方法。該方法輸入RGB圖像以及BEV(鳥瞰圖)Map,首先使用FPN網絡結構,包含編碼器和解碼器結構,得到二者全分辨率的特征圖,用于結合底層細節信息和高層語義信息,然后通過特征裁剪提取兩個特征圖對應的特征進行裁剪并自適應融合,最后挑選出3D建議以實現3D物體檢測。整個過程是兩階段檢測,此外使用RGB圖像和點云作為原始輸入,減少了LIDAR FV(前視圖)輸入,降低了計算量,減少算法的計算復雜度,提高了三維空間車輛目標檢測的效率。這種算法有效提高了對小物體的檢測效果以及被遮擋車輛以及被截斷車輛的檢測率。
本發明解決其技術問題所采用的技術方案:一種多模態自適應融合的三維目標檢測方法,其特點是包括以下步驟:
步驟一、利用特征提取器從鳥瞰圖和圖像中生成特征圖,將LIDAR點云投射到鳥瞰圖,從一個分辨率為0.1m的點云的體素網格中生成六通道鳥瞰圖。將點云裁剪在[-40,40]×[0,70]范圍內,從而包含相機視野內的點。鳥瞰圖的前五個通道是每個柵格單元的最大高度,是由Z軸上[0,2.5]米范圍內五個相同的切片生成。第六個通道信息包含的是每個單元中的密度信息,由確定,其中N是體素網格中的點數。
步驟二、使用圖像輸入和LIDAR輸入兩個特征提取器,將VGG-16網絡通道數減半,并在第四層卷積層裁剪網絡。編碼器將一個M*N*D的圖像或者鳥瞰圖作為輸入,并輸出(M/8)×(M/8)×D的特征圖。設計一個自底向上的解碼器將編碼器輸出的特征圖上采樣恢復至原始輸入尺寸;通過解卷積將兩個編碼器輸出的相關聯的特征圖級聯,然后通過一個3×3卷積將兩者融合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910837423.1/2.html,轉載請聲明來源鉆瓜專利網。





