[發(fā)明專利]基于多尺度殘差金字塔注意力網(wǎng)絡(luò)模型的單目圖像深度估計方法有效
| 申請?zhí)枺?/td> | 202010865812.8 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN112001960B | 公開(公告)日: | 2022-09-30 |
| 發(fā)明(設(shè)計)人: | 張丹;劉京;余義德;張志偉;時光;孫杰;夏光輝;王紅萍 | 申請(專利權(quán))人: | 中國人民解放軍91550部隊 |
| 主分類號: | G06T7/55 | 分類號: | G06T7/55;G06V10/80;G06N3/04;G06N3/08;G06T7/40 |
| 代理公司: | 天津耀達(dá)律師事務(wù)所 12223 | 代理人: | 侯力 |
| 地址: | 116023 *** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 尺度 金字塔 注意力 網(wǎng)絡(luò) 模型 圖像 深度 估計 方法 | ||
一種基于多尺度殘差金字塔注意力網(wǎng)絡(luò)模型的單目圖像深度估計方法,旨在有效解決在復(fù)雜場景中復(fù)雜紋理和復(fù)雜幾何結(jié)構(gòu)造成的局部細(xì)節(jié)信息丟失、物體邊界扭曲等問題,顯著提升圖像深度估計的精度。包括:獲得待估計圖像;由編碼器部分提取包含位置信息的低級特征;將提取的特征通過預(yù)測得到預(yù)測深度圖和四個殘差深度圖;對得到的預(yù)測深度圖進(jìn)行上采樣得到上采樣深度圖;由解碼器部分對得到的殘差深度圖和上采樣深度圖進(jìn)行處理和融合,得到最終的深度圖。實(shí)驗結(jié)果表明,本發(fā)明方法中的網(wǎng)絡(luò)模型在總體上有一定的提升,在物體邊界和局部細(xì)節(jié)具有較好的性能,能夠更好地預(yù)測復(fù)雜場景中物體邊界和局部細(xì)節(jié)的深度信息。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機(jī)視覺(虛擬現(xiàn)實(shí))中的圖像深度估計領(lǐng)域,具體涉及一種基于多尺度殘差金字塔注意力網(wǎng)絡(luò)模型的單目圖像深度估計方法。
背景技術(shù)
圖像深度估計在虛擬現(xiàn)實(shí)領(lǐng)域取得了一系列豐富的研究成果,是計算機(jī)視覺領(lǐng)域中一項重要的研究課題。深度信息是理解一個場景三維結(jié)構(gòu)關(guān)系的重要組成部分,準(zhǔn)確的深度信息能夠幫助我們更好地進(jìn)行場景理解。單目圖像的獲取對設(shè)備數(shù)量和環(huán)境條件要求較低,通過單目圖像進(jìn)行深度估計更貼近實(shí)際情況,應(yīng)用場景更廣泛。深度學(xué)習(xí)的迅猛發(fā)展,使得基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法在單目圖像深度估計領(lǐng)域取得了一定的成果,成為圖像深度估計領(lǐng)域的研究熱點(diǎn)。
專利【申請?zhí)枺篊N106157307A】提出了一種基于多尺度卷積神經(jīng)網(wǎng)絡(luò)和連續(xù)條件隨機(jī)場的單目圖像深度估計方法,其利用條件隨機(jī)場模型根據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)的輸出深度圖計算單點(diǎn)勢能,根據(jù)輸入RGB圖像計算成對稀疏勢能,最后用最大化后驗概率算法推導(dǎo)出優(yōu)化的深度圖。該方法能夠以較高的精確度估計出深度圖,又能使得到的深度圖輪廓清晰;該方法所估計的深度有比較高的分辨率,而且所得到的深度圖能保留場景中所有對象的深度細(xì)節(jié)信息,具有更好的視覺效果。但是模型不統(tǒng)一,且耗時長。
專利【申請?zhí)枺篊N109410261A】中提出了一種基于金字塔池化模塊的單目圖像深度估計方法。該方法在訓(xùn)練階段先構(gòu)建神經(jīng)網(wǎng)絡(luò),其包括輸入層、隱含層和輸出層;隱含層包括單獨(dú)的第一卷積層、特征提取網(wǎng)絡(luò)框架、尺度恢復(fù)網(wǎng)絡(luò)框架、單獨(dú)的第二卷積層、金字塔池化模塊、單獨(dú)的連接層;再將訓(xùn)練集中的每幅原始的單目圖像作為原始輸入圖像,輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,并通過計算訓(xùn)練集中的每幅原始的單目圖像對應(yīng)的預(yù)測深度圖像與對應(yīng)的真實(shí)深度圖像之間的損失函數(shù)值,得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型的最優(yōu)權(quán)值矢量和最優(yōu)偏置項;在測試階段,將待預(yù)測的單目圖像輸入到神經(jīng)網(wǎng)絡(luò)模型中,并利用最優(yōu)權(quán)值矢量和最優(yōu)偏置項進(jìn)行預(yù)測,得到預(yù)測深度圖像;優(yōu)點(diǎn)是計算復(fù)雜度低。但是仍然存在的不足是,該方法預(yù)測精度還不夠高,無法應(yīng)用于實(shí)際場景。
專利【申請?zhí)枺篊N109741383A】公開了一種基于空洞卷積和半監(jiān)督學(xué)習(xí)的圖像深度估計系統(tǒng)與方法,解決了從單幅圖像中估計場景深度的問題。該方法對現(xiàn)有的編碼器-解碼器的網(wǎng)絡(luò)結(jié)構(gòu)模型進(jìn)行了改進(jìn),在編碼器模塊和解碼器模塊之間加入了空洞卷積模塊。該方法具有參數(shù)模型小,預(yù)測精度高的特點(diǎn),但容易丟失細(xì)節(jié)信息。可應(yīng)用于圖像三維重建、自動駕駛等領(lǐng)域。
專利【申請?zhí)枺篊N110189370A】發(fā)明了一種基于全卷積密集連接神經(jīng)網(wǎng)絡(luò)的單目圖像深度估計方法,通過構(gòu)建四組密集連接模塊+連接模塊+下采樣模塊、一個15層的密集連接塊以及四組上采樣模塊+連接模塊+密集連接模塊,在不同深度層結(jié)果之間采取跳遠(yuǎn)連接,使得每層網(wǎng)絡(luò)能感知更多像素的信息。該方法充分利用了每一層的特征圖,包含了高低不同等級的特征,從而實(shí)現(xiàn)訓(xùn)練出更精確的圖像深度,且該方法得到的圖像輪廓更加清晰,在一定程度上解決了現(xiàn)有單目圖像深度估計方法生成的結(jié)果存在的過于平滑現(xiàn)象且不清晰的現(xiàn)象,獲得了更為清晰的深度圖像,從而提高了圖像深度估計的精確度。但該方法無法準(zhǔn)確地估計物體的邊界部分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍91550部隊,未經(jīng)中國人民解放軍91550部隊許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010865812.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種耐浸泡的高強(qiáng)快遞箱
- 下一篇:一種半導(dǎo)體框架





