[發明專利]一種基于深度學習的單目視覺深度估計方法在審
| 申請號: | 202110185998.7 | 申請日: | 2021-02-13 |
| 公開(公告)號: | CN112819876A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 張怡;程澤宇;唐成凱;張玲玲;宋哲;孫品先 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06T7/50 | 分類號: | G06T7/50 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 陳星 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 目視 估計 方法 | ||
本發明提出一種基于深度學習的視覺深度估計的方法,通過在現有的深度學習深度估計的網絡上添加注意力機制,使得深度學習網絡重點關注注意力機制篩選出來的圖像中的關鍵信息,以提高網絡對視覺信息的理解能力,從而提高了深度估計的準確性以及深度場景還原的清晰度,在確定好圖像的深度之后,可以以此為基礎進行單目視覺定位以及三維重建。此方法在利用深度學習來進行單目視覺定位構圖的過程中具有重要意義。
技術領域
本發明屬于視覺導航領域,具體涉及一種基于深度學習的單目視覺深度估計方法。
背景技術
計算機、5G通信等技術的發展,視覺即時定位與構圖(VSLAM)已經受到了越來越多工業界和學術界人的關注。近些年來,基于物理模型和幾何方法的VSLAM已經取得了巨大的成果和出色的表現,例如ORB-SLAM(Mur-Artal R,Tardos J D.ORB-SLAM2:an Open-SourceSLAM System for Monocular,Stereo and RGB-D Cameras[J].IEEE Transactions onRobotics,2017,33(5):1255-1262),RTABMAP(Labbé,Mathieu,Michaud,RTAB-Mapas an open-source lidar and visual simultaneous localization and mappinglibrary for large-scale and long-term online operation:LABB and MICHAUD[J].Journal of Field Robotics,2018,36.),Vins-Mono(Tong Q,Peiliang L,ShaojieS.VINS-Mono:A Robust and Versatile Monocular Visual-Inertial State Estimator[J].IEEE Transactions on Robotics,2017,PP(99):1-17.),Open-Vins(Geneva P,Eckenhoff K,Lee W,et al.OpenVINS:A Research Platform for Visual-InertialEstimation[C]//Proc.of the IEEE International Conference on Robotics andAutomation.IEEE,2020.)等,并且已經初步應用于增強現實技術(AR),虛擬現實技術(VR),旋翼無人機控制,自動駕駛等與人工智能相關的新興領域,取得了較為不錯的效果。隨著近些年半導體技術突飛猛進地發展,以深度學習的基礎的視覺定位與構圖技術同樣得到了廣泛的關注,得益于龐大的數據量和半導體發展帶來的高計算能力,這項技術正在快速發展為一個利用數據驅動來定位和估計真實場景結構的新領域。與傳統幾何方法相比,基于深度學習的方法不需要手動設置物理、數學的幾何規則來進行定位和構圖,單純依靠數據驅動模型,并且具有自我學習的能力。而且單目相機由于成本低、功耗低、體積小等優點,廣泛使用在手機,移動機器人,旋翼無人機等小型設備上。因此,基于深度學習的單目視覺定位構圖技術對于自動駕駛,AR,VR等與人工智能相關的新興領域同樣具有重要意義。
發明內容
由于利用深度學習來解決視覺即時定位與構圖屬于新興領域,所以目前還存在多方面的問題,例如估計精度較低,動態場景誤差較大,深度還原模糊,模型泛化性較低等。本發明提出了一種基于深度學習的單目視覺深度估計方法,該方法通過在現有的深度學習深度估計的網絡上添加注意力機制,使得深度學習網絡重點關注注意力機制篩選出來的圖像中的關鍵信息,以提高網絡對視覺信息的理解能力,從而提高了深度估計的準確性以及深度場景還原的清晰度,在確定好圖像的深度之后,可以以此為基礎進行單目視覺定位以及三維重建。此方法在利用深度學習來進行單目視覺定位構圖的過程中具有重要意義。
本發明的技術方案為:
一種基于深度學習的單目視覺深度估計方法,包括以下步驟:
步驟1:將待估計圖像輸入編碼網絡;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110185998.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:填埋式無線土壤檢測裝置
- 下一篇:管道孔防震結構





