[發明專利]一種基于端到端半監督生成對抗網絡的視覺里程計的方法有效
| 申請號: | 201910349634.0 | 申請日: | 2019-04-28 |
| 公開(公告)號: | CN110335337B | 公開(公告)日: | 2021-11-05 |
| 發明(設計)人: | 紀榮嶸;郭鋒;陳晗 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06T17/00 | 分類號: | G06T17/00;G06T7/246;G06T7/73;G06N3/04;G01C21/20;G01C22/00 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 端到端半 監督 生成 對抗 網絡 視覺 里程計 方法 | ||
1.一種基于端到端半監督生成對抗網絡的視覺里程計的方法,其特征在于包括以下步驟:
1)特征生成網絡:
特征檢測器網絡涉及編碼器-解碼器對,其中空間分辨率通過池化層2×2或跨步卷積獲得小尺度分辨率,使用解碼器進行上采樣,生成128維通道的中間特征描述圖;在中間特征描述圖之后,網絡分裂為兩個任務:一個用于通過卷積層和Softmax層進行特征點擬合計算,另一個通過卷積層生成深度特征描述圖;編碼器網絡一共有6層卷積,輸出大小分別為64-64-128-128-128-128;解碼器分為特征點檢測器和描述子提取器;其中,特征點檢測器通過3×3卷積和反池化層解碼深度特征,輸出大小分別為128-128-64-64,之后將特征圖reshape為原圖大小;描述子提取器也是通過3×3卷積和反池化層解碼,輸出大小為128-128-128-128,最后通過插值方法將特征圖升維到原圖大小;特征生成網絡的參數更新來自判別網絡的反向傳播而不是直接來自訓練數據,且網絡參數在兩項任務之間共享;在預測時,使用FLANN和sGAN特征描述子計算匹配點;單應性矩陣H是通過直接線性變換來計算的,該直接線性變換是用于求解涉及如下等式所示的尺度的最小二乘問題的算法結構:
其中,P'和P是匹配點,是叉乘操作;相機標定矩陣由KITTI數據集提供,K和K'分別表示參考相機中心C和C'的相機內參矩陣;相關圖像的相機中心點C和C'的平移和旋轉由和表示;假定I是3×3的單位矩陣,投影矩陣變成:
P=K[I|o]
最終單應性矩陣變為:
其中,o是3×1零矢量,h是攝像機的高度;為了得到提交給KITTI平臺的結果,對得到的單應性矩陣進行分解,得到相應的旋轉矩陣R和平移矩陣t;
2)判別網絡的構建:
使用RefineNet提取的語義信息作為判別語義一致性的標簽,真實數據的特征描述子是由歸一化后的Sift特征描述子生成的128×h×w維矩陣,用r表示,其中h和w是輸入圖像的度高和寬度,并且r中非特征點的通道被置為零,Sift特征點在輸入圖像上的坐標作為真實數據,記為y,通過使用OpenCV的開源算法利用Sift特征匹配計算單應性矩陣標簽H';
給定真實數據或虛假數據,判別網絡能將梯度傳播回所有層;將判別網絡分為兩個判別器,判別器D1的主要任務是區分特征檢測器網絡的輸出虛假數據與真實數據;為了促進幾何-語義一致性,在D1的網絡結構中,不僅將圖像特征圖與深度描述相結合,而且在判別網絡中增加語義特征圖;判別網絡中將原始圖像、語義圖以及特征描述子作為輸入;其中,每個語義圖有23個類別,即語義輸入的維度為23×w×h;語義特征映射的空間分辨率通過卷積和池化層來降低,輸出大小為46-46-46-46-23-23;原始圖像和特征描述子也將通過卷積層和池化層降維,得到的輸出維度都為128×60×80;然后將語義特征圖,圖像深度特征圖及其深度特征描述連接成一個279×w×h的合成特征圖,通過全卷積后成為1×279維度的特征;最終,Softmax層輸出為真實數據的概率;
3)對抗訓練的實現:
將損失定義為:
EAdv(r,x)=λ1E(LOG(D(r1))+LOG(D(r2)))+λ2E(LOG(1-D(G(x1)))+LOG(1-D(G(x2))))
其中,G和D分別表示特征生成網絡和判別網絡的參數;假定作為生成的特征點,其中x表示特征檢測器網絡的輸入,G(x)表示生成的深度特征描述,即虛假數據;第一個損失項是判別器D2中的多類別的交叉熵損失函數,它鼓勵特征檢測器模型預測每個特征點所在的真正位置,其中表示由特征檢測器網絡生成的虛假特征點;第二個損失項vh(S,H)是判別器D2中的語義幾何一致性標準,p是第一幀的特征點,Hp是第二幀中的相應投影點;同樣,是通過單應性標簽投影的對應點,N是第一幀中的特征點的數量,公式如下:
其中,S()是像素級別的語義標簽,在第三個損失項中,LOG()是一個二元交叉熵函數,它被用作判別虛假和真實數據的依據,參考真實特征描述是r1和r2,虛假深度特征描述是x1,x2;λ1和λ2是折衷判別器D1和判別器D2的超參;EAdv(r,x)判別器D1中的對抗損失函數,該對象函數應用于特征檢測器和判別器的極小極大對抗訓練;
對于特征生成器模型的訓練,給定虛假數據,特征探測器模型的訓練使融合判別模型的二元交叉熵損失最小化,同時降低深度特征描述的多類交叉熵合損失和語義幾何損失,鼓勵特征檢測器模型產生類似SIFT-的深度特征點描述,易于混淆判別模型的判斷,公式如下:
對于判別模型的訓練,等價于最大化如下方程中的二元分類損失;判別網絡經過訓練輕松區分虛擬數據和真實數據;
通過加入語義監督信息和動態權重監督信息對幾何關系進一步約束,在SIFT之上增加語義以及動態區域預測得性能,sGAN-VO是一種輕量級的魯棒性語義感知深度特征;
4)解決動態場景問題:
添加一個w×h權重矩陣矩陣的每個元素表示當前像素位置在非移動區域的置信度,幾何一致性公式更新為:
其中,是像素pn的權重,使用移動對象檢測算法CDNet來檢測數據中的移動對象作為直接監督標簽;表示每個匹配點對是否在運動對象區域中的權重,運動對象區域中的可能性越大,懲罰越大;為了學習權重矩陣,在幾何一致性損失項中加入了交叉熵損失權重矩陣中的每個元素都有0或1的標簽,1代表它處于移動對象區域中;在動態物體區域上的點,投影誤差大,則設置權重矢量大。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910349634.0/1.html,轉載請聲明來源鉆瓜專利網。





