[發(fā)明專利]一種基于PSMNet改進(jìn)的雙目立體匹配方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010217365.5 | 申請(qǐng)日: | 2020-03-25 |
| 公開(kāi)(公告)號(hào): | CN111583313A | 公開(kāi)(公告)日: | 2020-08-25 |
| 發(fā)明(設(shè)計(jì))人: | 羅炬鋒;蔣煜華;李丹;曹永長(zhǎng);偰超;張力;崔笛揚(yáng);鄭春雷 | 申請(qǐng)(專利權(quán))人: | 上海物聯(lián)網(wǎng)有限公司 |
| 主分類號(hào): | G06T7/33 | 分類號(hào): | G06T7/33;G06N3/04;G06N3/08 |
| 代理公司: | 上海泰能知識(shí)產(chǎn)權(quán)代理事務(wù)所 31233 | 代理人: | 宋纓 |
| 地址: | 201800 上海市嘉*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 psmnet 改進(jìn) 雙目 立體 匹配 方法 | ||
本發(fā)明涉及一種基于PSMNet改進(jìn)的雙目立體匹配方法,包括:獲取雙目圖像,構(gòu)建基于PSMNet的主干網(wǎng)絡(luò);該網(wǎng)絡(luò)包括:深度卷積網(wǎng)絡(luò),用于提取所述雙目圖像的左右特征圖;金字塔池化結(jié)構(gòu),用于提取所述左右特征圖的多尺度目標(biāo)特征;匹配代價(jià)卷,用于將多尺度目標(biāo)特征進(jìn)行代價(jià)聚合,得到3D特征模塊;3D卷積結(jié)構(gòu),用于對(duì)3D特征模塊進(jìn)行后續(xù)代價(jià)計(jì)算;通過(guò)引入通道注意力機(jī)制對(duì)不同特征點(diǎn)賦予不同的權(quán)重來(lái)改進(jìn)匹配代價(jià)卷的結(jié)構(gòu);設(shè)計(jì)基于編碼過(guò)程和解碼過(guò)程的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)改進(jìn)3D卷積結(jié)構(gòu),得到改進(jìn)后的基于PSMNet的主干網(wǎng)絡(luò);再對(duì)所述雙目圖像進(jìn)行立體匹配。本發(fā)明的立體匹配方法能使網(wǎng)絡(luò)結(jié)構(gòu)獲得更快的訓(xùn)練時(shí)間、更高的視差精度,具有較好的實(shí)用性。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺(jué)應(yīng)用技術(shù)領(lǐng)域,特別是涉及一種基于PSMNet改進(jìn)的雙目立體匹配方法。
背景技術(shù)
立體視覺(jué)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要課題,它的目的在于重構(gòu)場(chǎng)景的三維幾何信息,我們可以利用雙目立體相機(jī)來(lái)獲得當(dāng)前場(chǎng)景的左右視圖,然后利用立體匹配算法來(lái)計(jì)算得到當(dāng)前場(chǎng)景的深度信息。立體匹配是立體視覺(jué)中獲取目標(biāo)深度信息的關(guān)鍵部分,其目標(biāo)是在兩個(gè)或多個(gè)視點(diǎn)中匹配相應(yīng)像素點(diǎn),計(jì)算視差和深度,從而得到該場(chǎng)景的三維信息。
一個(gè)完整的立體匹配算法通常包含四步:匹配代價(jià)計(jì)算、代價(jià)聚合、視差計(jì)算、視差細(xì)化。傳統(tǒng)的立體匹配方法主要利用局部區(qū)域法、動(dòng)態(tài)規(guī)劃法等方法來(lái)獲得視差圖,但這類視差圖往往存在很多空洞,故需要進(jìn)行一系列的后處理步驟來(lái)完善視差信息和填補(bǔ)視差空洞。隨著深度學(xué)習(xí)大發(fā)展,視差圖的獲取不再拘泥于傳統(tǒng)的立體匹配算法,而是通過(guò)設(shè)計(jì)深度卷積網(wǎng)絡(luò)來(lái)直接預(yù)測(cè)場(chǎng)景的稠密視差圖。得益于卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力,基于深度學(xué)習(xí)的立體匹配算法相比于傳統(tǒng)方法能夠更加精確的對(duì)場(chǎng)景目標(biāo)進(jìn)行視差估計(jì)。
Zbontar和LeCun首次提出了使用孿生網(wǎng)絡(luò)來(lái)計(jì)算左右視圖的匹配代價(jià),他們以一對(duì)9×9大小的圖像塊作為孿生網(wǎng)絡(luò)的輸入,將該網(wǎng)絡(luò)的輸出設(shè)為左右兩張圖像塊的相似度,并對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,他們的方法是一種典型的立體匹配方法計(jì)算過(guò)程,其后處理步驟包括代價(jià)聚合、半全局匹配、視差精細(xì)化等,該方法得到的視差圖相比于使用滑框進(jìn)行匹配代價(jià)計(jì)算的傳統(tǒng)方法精度更高。Luo等人于2016年提出了更快的孿生網(wǎng)絡(luò)來(lái)進(jìn)行匹配代價(jià)的計(jì)算,作者將匹配代價(jià)的計(jì)算視為多標(biāo)簽分類問(wèn)題來(lái)提升推理速度。Shaked和Wolf[于2017年提出了一種用于匹配成本計(jì)算的高速網(wǎng)絡(luò)和一種用于預(yù)測(cè)視差置信度得分的全局視差網(wǎng)絡(luò),該網(wǎng)絡(luò)有助于進(jìn)一步完善視差圖。但這類基于CNN的立體匹配算法往往只是將孿生網(wǎng)絡(luò)用于匹配代價(jià)計(jì)算,計(jì)算后的視差值仍然需要使用后處理來(lái)提高其精度。
近幾年來(lái),研究者在立體匹配算法中的主要研究?jī)?nèi)容是利用卷積神經(jīng)網(wǎng)絡(luò)直接端到端的生成場(chǎng)景視差圖,摒棄了一系列的后處理優(yōu)化步驟。Mayer等人2016年率先提出了端到端的視差計(jì)算網(wǎng)絡(luò)DispNet,并提供了一個(gè)龐大的立體匹配數(shù)據(jù)集Scene Flow供模型進(jìn)行訓(xùn)練。Pang等人在DispNet的基礎(chǔ)上引入了一個(gè)稱為級(jí)聯(lián)殘差學(xué)習(xí)(CRL)的兩階段網(wǎng)絡(luò),該網(wǎng)絡(luò)第一階段和第二階段分別計(jì)算視差圖及其多尺度殘差,然后將兩個(gè)階段的輸出以求和形成生成最終的視差圖。Kendall等人于2017年提出了GCNet,該網(wǎng)絡(luò)通過(guò)將左特征圖中的每一個(gè)像素點(diǎn)與右特征圖中同一極線上所有可能的匹配像素進(jìn)行密集比較來(lái)生成一個(gè)尺寸為d×h×w×c的3D代價(jià)卷,然后通過(guò)3D卷積對(duì)該代價(jià)卷進(jìn)行信息提取,最后通過(guò)soft-argmin操作來(lái)得到最佳匹配視差。JiaRen Cheng等人在GCNet的基礎(chǔ)上提出了PSMNet,作者在立體匹配網(wǎng)絡(luò)中引入了金字塔池化結(jié)構(gòu)來(lái)進(jìn)行多尺度特征提取,同時(shí)在3D CNN中使用沙漏結(jié)構(gòu)來(lái)獲取上下文信息,最終實(shí)現(xiàn)了比GCNet更優(yōu)的視差效果。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于PSMNet改進(jìn)的雙目立體匹配方法,針對(duì)雙目圖像、視頻能計(jì)算出高精度的視差圖。
本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:提供一種基于PSMNet改進(jìn)的雙目立體匹配方法,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海物聯(lián)網(wǎng)有限公司,未經(jīng)上海物聯(lián)網(wǎng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010217365.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 雙目圖像視差調(diào)節(jié)方法及裝置和雙目相機(jī)
- 一種擴(kuò)展雙目相機(jī)定位范圍的方法和裝置
- 眼科手術(shù)顯微鏡
- 雙目異內(nèi)參攝像-顯像光學(xué)系統(tǒng)的匹配方法及其系統(tǒng)和電子設(shè)備
- 用于測(cè)量物料體積的方法和裝置
- 一種雙目圖像的視差確定方法、裝置及系統(tǒng)
- 雙目精度的檢測(cè)方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 基于雙目視覺(jué)的環(huán)境感知方法、裝置及無(wú)人飛行器
- 一種實(shí)時(shí)遠(yuǎn)程植被監(jiān)測(cè)系統(tǒng)
- 一種用于兼容安裝多款雙目攝像頭的可調(diào)節(jié)裝置





