[發(fā)明專利]一種基于對比學習的單目深度估計網(wǎng)絡(luò)的優(yōu)化方法在審
| 申請?zhí)枺?/td> | 202110417560.7 | 申請日: | 2021-04-19 |
| 公開(公告)號: | CN113077505A | 公開(公告)日: | 2021-07-06 |
| 發(fā)明(設(shè)計)人: | 張敏;李建華;盧湖川 | 申請(專利權(quán))人: | 大連理工大學人工智能大連研究院;大連理工大學 |
| 主分類號: | G06T7/55 | 分類號: | G06T7/55 |
| 代理公司: | 青島恒昇眾力知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 37332 | 代理人: | 蘇友娟 |
| 地址: | 116000 遼寧省大連*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 對比 學習 深度 估計 網(wǎng)絡(luò) 優(yōu)化 方法 | ||
本發(fā)明提供了一種基于對比學習的單目深度估計網(wǎng)絡(luò)的優(yōu)化方法,包括以下步驟:數(shù)據(jù)集組織;采用無監(jiān)督的深度估計網(wǎng)絡(luò)預(yù)測得到初始深度圖;對初始深度圖進行數(shù)據(jù)預(yù)處理;使用時序參考網(wǎng)絡(luò)對初始深度圖進行優(yōu)化;計算損失函數(shù),根據(jù)對比學習的思想設(shè)計一致性損失函數(shù),優(yōu)化整個網(wǎng)絡(luò)。在網(wǎng)絡(luò)訓練方面,本發(fā)明通過參考對比學習的訓練思想,設(shè)計了一致性損失函數(shù),通過對不同信源的輸出進行一致性約束,增加了網(wǎng)絡(luò)的特征表達,提升了深度估計的準確性。
技術(shù)領(lǐng)域
本發(fā)明涉及基于卷積神經(jīng)網(wǎng)絡(luò)的計算機視覺領(lǐng)域,特別是涉及一種基于對比學習的單目深度估計網(wǎng)絡(luò)的優(yōu)化方法。
背景技術(shù)
近幾年,隨著深度學習相關(guān)理論趨于成熟以及移動拍照設(shè)備的普及,計算機視覺領(lǐng)域的相關(guān)應(yīng)用得到了突飛猛進的進展。與此同時,人們對視覺領(lǐng)域的需求也越來越高。人們開始不滿足于捕捉二維圖像中的場景,而是希望能夠?qū)D像所表達的立體場景有更加生動的理解。深度估計任務(wù)就是立體視覺領(lǐng)域一個十分重要的基礎(chǔ)任務(wù),他旨在恢復(fù)二維圖像成像過程中損失的距離信息。不僅如此,距離信息的準確程度會直接影響他的下游任務(wù),例如深度圖是諸多三維任務(wù)中必不可少的輸入信源之一,如機器人、自動駕駛、三維重建等等。
基于卷積神經(jīng)網(wǎng)絡(luò)的深度估計方法,在近幾年得到了令人矚目的進展。由于二維圖像缺少絕對的尺度信息,所以傳統(tǒng)方法使用多視角圖像作為輸入,經(jīng)過匹配點算法得到深度信息。基于卷積神經(jīng)網(wǎng)絡(luò)的方法,對數(shù)據(jù)分布進行擬合,可直接對單幀圖像預(yù)測深度。這種方法還避免了傳統(tǒng)方法在低紋理區(qū)域難以匹配的問題。由于基于深度學習的單目深度估計本身就是一個尺度未定的問題,這個任務(wù)的關(guān)鍵在于如何設(shè)計合理的算法得到有效的特征,得到準確的預(yù)測結(jié)果。目前的方法都是通過對單幀圖像進行特征提取,在訓練階段以深度圖真值作為監(jiān)督訓練網(wǎng)絡(luò),在測試階段直接對給定的輸入圖像給出深度圖的預(yù)測。雖然單幀圖像也有很多可以幫助網(wǎng)絡(luò)判斷得到深度值的信息,但是仍然不能準確恢復(fù)出絕對的尺度,而且單幀圖像所能提供的特征十分有限。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的在于提供一種基于對比學習的單目深度估計網(wǎng)絡(luò)的優(yōu)化方法,使用無機監(jiān)督的方法降低數(shù)據(jù)成本,基于對比學習的網(wǎng)絡(luò)訓練方法,提升特征的表達能力,具有較高的預(yù)測準確性。
為了達到上述目的,本發(fā)明所采用的具體技術(shù)方案如下:
一種基于對比學習的單目深度估計網(wǎng)絡(luò)的優(yōu)化方法,具體包括以下步驟:
S1,數(shù)據(jù)集組織,按照訓練和測試集劃分方法,從場景類別中選取部分原始數(shù)據(jù)進行訓練,設(shè)置原始數(shù)據(jù)的參數(shù),組織輸入數(shù)據(jù);
S2,采用無監(jiān)督的深度估計網(wǎng)絡(luò)預(yù)測得到初始深度圖,利用連續(xù)視頻圖像之間的重投影關(guān)系作為約束去聯(lián)合訓練深度估計和相機位姿兩部分網(wǎng)絡(luò);
S3,對初始深度圖進行數(shù)據(jù)預(yù)處理,對時序上相鄰的深度圖進行重采樣,以保持相鄰幀和目標幀在像素位置上保持對齊;
S4,使用時序參考網(wǎng)絡(luò)對初始深度圖進行優(yōu)化,使用基于時序的深度估計模型,對重采樣的初始深度圖之間的深度值變化關(guān)系進行建模;
S5,計算損失函數(shù),根據(jù)對比學習的思想設(shè)計一致性損失函數(shù),優(yōu)化整個網(wǎng)絡(luò)。
優(yōu)選的,步驟S1中設(shè)置原始數(shù)據(jù)的參數(shù),組織輸入數(shù)據(jù)具體指的是,將每三幀連續(xù)的圖像作為一段時序數(shù)據(jù),作為輸入數(shù)據(jù),記為{It,t∈{t-1,t,t+1}},取t時刻作為目標時刻,t-1時刻和t+1時刻作為參考幀。
優(yōu)選的,步驟S2具體包括以下步驟
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學人工智能大連研究院;大連理工大學,未經(jīng)大連理工大學人工智能大連研究院;大連理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110417560.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:連接體及連接體的制造方法
- 下一篇:一種塑形擠壓式面團出料設(shè)備





