[發明專利]端到端的視覺定位方法及系統在審
| 申請號: | 202011154636.3 | 申請日: | 2020-10-26 |
| 公開(公告)號: | CN112308911A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 高偉;萬一鳴;吳毅紅 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06T7/70 | 分類號: | G06T7/70;G06T11/00 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 端到端 視覺 定位 方法 系統 | ||
本發明涉及一種端到端的視覺定位方法及系統,所述視覺定位方法包括:獲取訓練數據集,所述訓練數據集包括多幀連續源圖像;根據各連續源圖像,建立位姿回歸網絡模型;具體包括:針對每一源圖像,基于深度卷積神經網絡,根據源圖像預測對應的深度圖;根據相機內部參數及深度圖,通過反向投影方法,確定合成圖像;根據各源圖像及對應的合成圖像,確定位姿回歸網絡模型;基于位姿回歸網絡模型,根據待測圖像,得到待測圖像的絕對位姿。本發明基于深度卷積神經網絡Depth CNN,根據源圖像預測對應的深度圖,通過反向投影方法,確定合成圖像;進而確定位姿回歸網絡模型,實現端到端的視覺定位,可準確確定待測圖像的絕對位姿,提高定位精度。
技術領域
本發明涉及計算機視覺技術與SLAM(Simultaneous localization and mapping,同步定位與建圖)領域,特別涉及一種基于在線幾何數據增廣策略的端到端的視覺定位方法及系統。
背景技術
視覺定位(Visual Localization)是移動機器人、自動駕駛以及增強現實中的重要環節,是指通過圖像估計相機拍攝位姿。
目前主流的視覺定位算法是基于幾何的方法。給定拍攝圖像,首先需要使用SFM(structure-from-motion)算法對場景進行三維重建,重建得到的三維模型點會被賦予一個或多個特征描述子。當給定一幅查詢圖像,首先對其提取特征點并計算描述子,之后通過計算描述子距離在三維點云庫中搜索與特征點最相似的三維點,得到2D和3D匹配后可以使用基于RANSAC的PnP算法計算出相機的6-Dof位姿。
與圖像檢索技術相比,這種方法能夠得到更加精確的位姿。但是隨著三維模型的增大,2D-3D匹配過程會消耗大量時間,使得定位過程非常緩慢。
近年來,隨著深度學習技術的發展,很多學者嘗試利用深度網絡進行端到端的位姿回歸。盡管端到端的方法能夠克服幾何方法的部分缺陷,但是其定位精度受限于訓練數據的稀疏性。因為定位數據采集相對困難,端到端模型的訓練數據庫中的位姿通常只包含定位空間中的一小部分,導致在訓練過程中,網絡非常容易過擬合。大部分早期的工作集中于設計新的網絡結構或者損失函數來提高網絡的泛化能力,但是精度提升并不明顯。
發明內容
為了解決現有技術中的上述問題,即為了提高定位精度,本發明的目的在于提供一種端到端的視覺定位方法及系統。
為解決上述技術問題,本發明提供了如下方案:
一種端到端的視覺定位方法,所述視覺定位方法包括:
獲取訓練數據集,所述訓練數據集包括多幀連續源圖像;
根據各連續源圖像,建立位姿回歸網絡模型;
其中,所述根據各連續源圖像,建立位姿回歸網絡模型,具體包括:
針對每一源圖像,基于深度卷積神經網絡,根據所述源圖像預測對應的深度圖;
根據相機內部參數及所述深度圖,通過反向投影方法,確定所述源圖像的合成圖像;
根據各源圖像及對應的合成圖像,確定位姿回歸網絡模型;
基于所述位姿回歸網絡模型,根據待測圖像,得到待測圖像的絕對位姿。
可選地,所述相機內部參數包括:焦距和光心;
所述根據相機內部參數及所述深度圖,通過反向投影方法,確定所述源圖像的合成圖像,具體包括:
通過焦距、光心及深度圖,將所述源圖像Is上的像素點p=(u,v)T投影到三維空間,得到在相機坐標系下的3D點P:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011154636.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新能源汽車電池組防護裝置的使用方法
- 下一篇:多頻陣列天線





