[發(fā)明專(zhuān)利]一種基于跨模態(tài)知識(shí)蒸餾的深度特權(quán)視覺(jué)里程計(jì)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210413969.6 | 申請(qǐng)日: | 2022-04-14 |
| 公開(kāi)(公告)號(hào): | CN114743105A | 公開(kāi)(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計(jì))人: | 李斌;龔小謹(jǐn) | 申請(qǐng)(專(zhuān)利權(quán))人: | 浙江大學(xué) |
| 主分類(lèi)號(hào): | G06V20/10 | 分類(lèi)號(hào): | G06V20/10;G06V10/82;G06V10/774;G06V10/764;G06V10/80;G06K9/62;G06N3/04;G06N3/08;G06T9/00 |
| 代理公司: | 杭州求是專(zhuān)利事務(wù)所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 跨模態(tài) 知識(shí) 蒸餾 深度 特權(quán) 視覺(jué) 里程計(jì) 方法 | ||
本發(fā)明公開(kāi)了一種基于跨模態(tài)知識(shí)蒸餾的深度特權(quán)單目視覺(jué)里程計(jì)方法。采集場(chǎng)景的彩色圖像和三維點(diǎn)云構(gòu)建視覺(jué)?激光里程計(jì)數(shù)據(jù)集;輸入視覺(jué)?激光里程計(jì)網(wǎng)絡(luò)和單目視覺(jué)里程計(jì)網(wǎng)絡(luò)中分別訓(xùn)練;通過(guò)跨模態(tài)知識(shí)蒸餾模塊來(lái)利用視覺(jué)?激光里程計(jì)網(wǎng)絡(luò)對(duì)單目視覺(jué)里程計(jì)網(wǎng)絡(luò)再次訓(xùn)練;訓(xùn)練結(jié)束后,對(duì)待測(cè)的連續(xù)時(shí)刻的彩色圖像序列輸入訓(xùn)練后的單目視覺(jué)里程計(jì)網(wǎng)絡(luò),輸出得到全局位姿,實(shí)現(xiàn)了單目視覺(jué)里程計(jì)的處理。本發(fā)明方法利用了更可靠的深度特權(quán)信息,對(duì)弱紋理區(qū)域和光照變化等環(huán)境因素有更好的魯棒性,取得了顯著的性能提升,有較好的通用性和普適性。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域的一種深度特權(quán)視覺(jué)里程計(jì)方法,特別是涉及了一種基于跨模態(tài)知識(shí)蒸餾的深度特權(quán)單目視覺(jué)里程計(jì)方法。
背景技術(shù)
單目視覺(jué)里程計(jì)是位姿估計(jì)任務(wù)中最常用的方法。絕大多數(shù)傳統(tǒng)的視覺(jué)里程計(jì)都通過(guò)特征點(diǎn)提取、特征匹配和幾何關(guān)系優(yōu)化來(lái)估計(jì)幀間位姿,盡管取得了不錯(cuò)的效果,但由于這類(lèi)方法依賴(lài)手工設(shè)計(jì)的特征,在存在弱紋理區(qū)域或強(qiáng)烈光照變化的復(fù)雜場(chǎng)景中容易失效。近期基于深度學(xué)習(xí)的視覺(jué)里程計(jì)方法開(kāi)始得到越來(lái)越多的研究者的關(guān)注,尤其是自監(jiān)督的視覺(jué)里程計(jì)方法,由于不需要真值標(biāo)簽,可以更充分地發(fā)揮深度學(xué)習(xí)技術(shù)數(shù)據(jù)驅(qū)動(dòng)的優(yōu)勢(shì),從大數(shù)據(jù)中學(xué)習(xí)到更有效的特征,從而克服傳統(tǒng)的手工特征缺陷。如Zhou等人發(fā)表在《Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition》的《Unsupervised Learning of Depth and Ego-Motion from Video》以及Gao等人發(fā)表在《4th Annual Conference on Robot Learning》的《AttentionalSeparation-and-Aggregation Network for Self-supervised Depth-Pose Learning inDynamic Scenes》,都是用單目圖像序列無(wú)監(jiān)督地聯(lián)合訓(xùn)練深度估計(jì)網(wǎng)絡(luò)和位姿估計(jì)網(wǎng)絡(luò)的單目視覺(jué)里程計(jì)方法,訓(xùn)練過(guò)程中不需要任何額外真值。
但是由于單目和無(wú)監(jiān)督學(xué)習(xí)本身的限制,這類(lèi)方法不能預(yù)測(cè)真實(shí)尺度下的位姿和深度。一種解決辦法是引入雙目特權(quán)信息,利用雙目圖像之間的視圖合成來(lái)獲取真實(shí)尺度信息,如Huang等人發(fā)表在《Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition》的《Unsupervised Learning of Monocular DepthEstimation and Visual Odometry with Deep Feature Reconstruction》和Li等人發(fā)表在《IEEE International Conference on Robotics and Automation》的《UnDeepVO:Monocular Visual Odometry through Unsupervised Deep Learning》,都是雙目特權(quán)單目視覺(jué)里程計(jì)方法,通過(guò)雙目特權(quán)信息的輔助來(lái)恢復(fù)預(yù)測(cè)深度和位姿的真實(shí)尺度。但是這類(lèi)方法依舊是基于彩色圖像匹配的方法,仍然會(huì)受到光照變化、弱紋理區(qū)域等因素的影響。
隨著激光雷達(dá)傳感器技術(shù)的發(fā)展,深度特權(quán)信息為提供了另一種更加可靠的真實(shí)尺度來(lái)源。通過(guò)將激光雷達(dá)采集的三維點(diǎn)云投影到相機(jī)成像平面,可以得到與彩色圖像對(duì)齊的稀疏深度圖,這個(gè)深度圖具備真實(shí)的尺度信息,且對(duì)光照條件和弱紋理區(qū)域魯棒,有助于學(xué)習(xí)到更強(qiáng)大的視覺(jué)里程計(jì)。如Wang等人發(fā)表在《Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition》的《Recurrent neuralnetwork for(un-)supervised learning of monocular video visual odometry anddepth》使用稀疏深度圖作為真值監(jiān)督網(wǎng)絡(luò)預(yù)測(cè)的致密深度圖,從而讓網(wǎng)絡(luò)可以恢復(fù)真實(shí)尺度。但是這種方法對(duì)于深度特權(quán)信息的利用太過(guò)簡(jiǎn)單,取得的性能提升有限。
發(fā)明內(nèi)容
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210413969.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種用于地下礦山破碎巖體中水平孔的裝藥方法
- 下一篇:管體加工方法
- 一種基于特定模態(tài)語(yǔ)義空間建模的跨模態(tài)相似性學(xué)習(xí)方法
- 一種跨模態(tài)信息檢索方法、裝置和存儲(chǔ)介質(zhì)
- 基于解糾纏表達(dá)學(xué)習(xí)的跨模態(tài)生物特征匹配方法及系統(tǒng)
- 基于跨模態(tài)行人重識(shí)別方法及裝置
- 跨模態(tài)人臉識(shí)別的方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 跨模態(tài)檢索模型的訓(xùn)練方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希方法及系統(tǒng)
- 跨模態(tài)檢索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于有監(jiān)督對(duì)比的跨模態(tài)檢索方法、系統(tǒng)及設(shè)備
- 一種生成跨模態(tài)的表示向量的方法以及跨模態(tài)推薦方法
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





