[發明專利]一種基于循環一致性的單目深度估計方法在審
| 申請號: | 202011484474.X | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112561980A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 王巖;雷澤宇;李沁 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06T7/593 | 分類號: | G06T7/593;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 李娜;王順榮 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環 一致性 深度 估計 方法 | ||
本發明涉及一種基于循環一致性的單目深度估計方法。其包括,讀取數據集里的圖像對;將圖像對輸入提出的網絡架構中獲取重建視圖;將圖像對和重建視圖代入損失函數中計算損失,分別以左右圖像為起點,形成循環訓練網絡,交替訓練模型;模型訓練完成,保存參數,測試階段預測深度值。所述的網絡架構為循環一致性網絡,分別為兩個生成網絡形成兩條回路交叉進行訓練,形成多對損失函數。與現有的技術相比,本發明能夠利用更多圖像對的信息,故具有精度高、魯棒性強等優點。
技術領域
本發明涉及一種基于循環一致性的單目深度估計方法,可用于自動駕駛場景下的單目深度估計任務。
背景技術
從圖像中預測深度值是自動駕駛場景理解領域的關鍵性問題之一。相比于傳統基于特征點檢測的方法,深度學習魯棒性強、運行速度快等優點在這一領域顯示出來強大的應用潛力。傳統監督學習方法需要獲取真實的深度值作為監督信息進行訓練,而這些真實深度值往往很難獲取、需要耗費大量的成本。
無監督學習方法的出現使得深度估計逐漸擺脫對真實深度值的依賴。這種方法往往利用網絡進行視圖重建來引入監督信息,通過不斷縮小合成視圖和原圖之間的差距來訓練網絡收斂,較為典型的Garg等人在已發表的論文中,輸入給網絡左圖利用網絡估計左視差,通過左視差在右圖上采樣,得到合成的右視圖與原右圖形成損失,訓練網絡收斂。之后Godard等人在此基礎上,利用網絡同時估計左右視差,合成右左視圖,為網絡引入了更多監督信息,也提高了深度估計的精度。
然而,以上方法通過輸入單一視圖估計左右視差,另一視圖作為監督信息。這種方式導致雙目的圖像只有單目視圖作為輸入,網絡僅以單目圖像估計左右視差,另一視圖引入到網絡的信息過少,所以獲取的左右視差精度低。如何為網絡引入更多的視圖信息成為解決該問題的關鍵。
發明內容
本發明的技術解決問題是:克服現有技術網絡獲取的視圖信息過少,提供一種基于循環一致性的單目深度估計方法。通過建立環形網絡,分別以左右圖為輸入起始端,形成環形交替訓練網絡,為網絡引入了更多信息,提高深度估計的精度。
本發明的技術方案是:一種基于循環一致性的單目深度估計方法,其實現步驟如下:
(1)分別讀取數據集中的左右圖像對L和R;
(2)以左圖L為輸入,以GLB為主干網絡,獲取右視差圖dr,合成視圖以右圖R為輸入,以GRL為主干網絡,獲取右視差圖dl,合成視圖
(3)分別計算合成視圖和原圖之間的損失,梯度反向傳播,訓練網絡收斂。
(4)測試階段輸入單幅圖像,獲取視差值,根據視差與深度的關系計算深度值,其中為深度值,b為基線長,f為相機焦距,d為視差值。
所述步驟(2)具體實現如下:
所述的深度估計網絡包括兩個子網絡,分別表示由左圖合成右圖的子網絡GLR和由右圖合成左圖的子網絡GRL,每個子網絡都包含編碼器和解碼器兩部分,編碼器為GLR和GRL共享,而解碼器為各自獨有的。整體的深度估計網絡結構基于U-Net構建,所述的解碼器包括十二層卷積層,除了前兩層卷積核大小為5*5外,其余均為3*3的卷積。
所述步驟(2)中,整體的深度估計網絡采用交替訓練方式,形成一個閉合的環形訓練結構。如圖2所示,GLR代表輸入左視圖,估計右視差,得到合成右視圖的生成器1;GRL代表輸入右視圖,估計左視差,得到合成左視圖的生成器2。整體的訓練過程分為兩個回路(分別對應實線和虛線回路),交叉進行。兩個回路的具體訓練過程如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011484474.X/2.html,轉載請聲明來源鉆瓜專利網。





