[發明專利]一種基于點融合網絡的三維物體檢測方法在審
| 申請號: | 201810081797.0 | 申請日: | 2018-01-29 |
| 公開(公告)號: | CN108171217A | 公開(公告)日: | 2018-06-15 |
| 發明(設計)人: | 夏春秋 | 申請(專利權)人: | 深圳市唯特視科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術產業園*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合網絡 點云 評分函數 三維物體檢測 預測點 預處理 卷積神經網絡 準確度 空間編碼 目標邊界 目標對象 深度信息 圖像特征 網絡模型 網絡選擇 訓練網絡 語義分割 邊界框 無監督 子網絡 最優化 攝取 聚合 投影 三維 量化 圖像 融合 輸出 學習 分類 預測 全局 網絡 幫助 監督 | ||
1.一種基于點融合網絡的三維物體檢測方法,其特征在于,主要包括點云網絡(一);融合網絡(二);密集融合預測評分函數(三)。
2.基于權利要求書1所述的點融合,其特征在于,點融合有三個主要組成部分:提取點云特征的點融合網絡變體、提取圖像外觀特征的卷積神經網絡(CNN)、組合兩個特征并輸出三維邊界框的融合網絡。
3.基于權利要求書1所述的點云網絡(一),其特征在于,點融合網絡首先使用對稱函數(最大池)來實現無序3D點云集的不變性處理;該模型攝取原始點云,并學習每個點的空間編碼以及聚合的全局點云特征,將這些特征用于分類和語義分割;
點融合網絡能直接處理原始點,而不需要體素化或投影的有損操作,并且與輸入點的數量成線性關系,但原始的點融合網絡公式不能用于3D回歸,因此需要進行去批量歸一化和輸入歸一化。
4.基于權利要求書3所述的去批量歸一化,其特征在于,在原始的點融合網絡實現中,所有全連接層都跟著一個批量歸一化層;但批量歸一化妨礙了三維邊界框的估計性能;批量歸一化旨在消除輸入數據中的尺度和偏差,但對于3D回歸任務,點位置的絕對數值是有幫助的;因此,點融合網絡變體刪除了所有的批量歸一化層。
5.基于權利要求書3所述的輸入歸一化,其特征在于,通過查找場景中可投影到框上的所有點獲得圖像邊界框的相應3D點云;然而,3D點的空間位置與2D框位置高度相關,這會引入偏差;點融合網絡應用空間變換器網絡(STN)來規范輸入空間;但STN不能完全糾正這些偏差,因此改用已知的幾何相機來計算規范旋轉矩陣Rc;Rc將通過2D框中心的光線旋轉到相機框架的z軸。
6.基于權利要求書1所述的融合網絡(二),其特征在于,融合網絡將采用標準CNN來提取的圖像特征和點融合網絡的子網絡產生的對應點云特征作為輸入;它將這些函數組合起來并為目標對象輸出一個3D邊界框;融合網絡包括全局融合網絡和新型密集融合網絡。
7.基于權利要求書6所述的全局融合網絡,其特征在于,全局融合網絡對圖像和點云特征進行處理,并直接對目標邊界框的八個角落的三維位置進行回歸;全局融合網絡的損失函數為:
其中,是標定好的真實框的角落位置,xi是預測的角落位置,Lstn是引入的空間變換正則化損失,用于強制學習空間變換矩陣的正交性;但全局融合網絡的一個主要缺點是回歸目標的方差直接取決于具體情況。
8.基于權利要求書6所述的密集融合網絡,其特征在于,密集融合網絡模型的主要思想是使用輸入的三維點作為密集的空間錨點,而不是直接回歸3D邊界框的角落位置的絕對位置,對于每個輸入的三維點,預測從該點到附近邊界框的角落位置的空間偏移;使用一個點融合網絡變體來輸出逐點特征;對于每個點,點融合網絡變體與全局的點融合網絡特征和圖像特征連接,產生一個n×3136的輸入張量;密集融合網絡使用多個層來處理該輸入,并輸出3D邊界框預測以及每個點的分數;在測試時間,具有最高得分的預測被選擇為最終預測;密集融合網絡的損失函數為:
其中,N是輸入點的數目,是標定好的真實框的角落位置和第i個輸入點之間的偏移量,是預測的偏移量,Lscore是評分函數的損失。
9.基于權利要求書1所述的密集融合預測評分函數(三),其特征在于,Lscore函數的目標是將網絡聚焦在靠近目標框的點上學習空間偏移;具體地,評分函數包括:
(1)監督評分函數:直接訓練網絡,以預測一個點是否在目標邊界框內;
(2)無監督評分函數:讓網絡選擇導致最佳預測的點。
10.基于權利要求書9所述的監督評分函數和無監督評分函數,其特征在于,監督評分損失訓練網絡預測一個點是否在目標框內;將點i的偏移回歸損失表示為將第i個點的二元分類損失表示為則:
其中,mi∈{0,1}指示第i個點是否在目標邊界框中,Lscore是交叉熵損失,其懲罰關于給定點是否在框內的不正確預測;如所定義的,該監督評分函數將網絡聚焦于學習,以預測目標邊界框內的點的空間偏移;然而,它可能不會給出最佳結果,因為框內的點可能不是具有最佳預測的點;
無監督評分的目標是讓網絡直接了解哪些點可能給出最好的假設;需要對網絡進行訓練,以確定可能產生良好預測的高置信度;該公式包括兩個相互競爭的損失條件:選擇所有點的高置信度ci,然而,角落位置的預測誤差與這個置信度成正比;定義集合為點i的拐點偏移回歸損失;則損失變成:
其中,w是兩項之間的權重因子;憑經驗找到最佳的w,并在所有的實驗中令w=0.1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市唯特視科技有限公司,未經深圳市唯特視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810081797.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于人臉識別的稀疏噪聲矩陣分解方法
- 下一篇:一種機器人追蹤人臉方法





