[發(fā)明專利]一種基于卷積神經(jīng)網(wǎng)絡(luò)的雙框架估計(jì)深度和運(yùn)動(dòng)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710025984.2 | 申請(qǐng)日: | 2017-01-13 |
| 公開(公告)號(hào): | CN106780543B | 公開(公告)日: | 2019-06-28 |
| 發(fā)明(設(shè)計(jì))人: | 夏春秋 | 申請(qǐng)(專利權(quán))人: | 深圳市唯特視科技有限公司 |
| 主分類號(hào): | G06T7/207 | 分類號(hào): | G06T7/207;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術(shù)產(chǎn)業(yè)園*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 卷積 神經(jīng)網(wǎng)絡(luò) 框架 估計(jì) 深度 運(yùn)動(dòng) 方法 | ||
1.一種基于卷積神經(jīng)網(wǎng)絡(luò)的雙框架估計(jì)深度和運(yùn)動(dòng)方法,其特征在于,主要包括:
(一)圖像輸入,具體包括:輸入有深度和相機(jī)姿勢(shì)的室內(nèi)場(chǎng)景圖像作為場(chǎng)景數(shù)據(jù)集,包括卡通、寫實(shí)的多種不同場(chǎng)景;從數(shù)據(jù)集中采樣圖像對(duì)時(shí),自動(dòng)丟棄具有高光一致性誤差的圖像對(duì),并分割數(shù)據(jù)集,使得相同的場(chǎng)景不會(huì)同時(shí)出現(xiàn)在訓(xùn)練集和測(cè)試集中;
(二)通過自助網(wǎng)絡(luò)輸出初始深度和運(yùn)動(dòng)估計(jì),具體包括:自助網(wǎng)絡(luò)獲取圖像對(duì)作為輸入,并輸出初始深度和運(yùn)動(dòng)估計(jì);自助網(wǎng)絡(luò)由第一編碼器-解碼器網(wǎng)絡(luò)及第二編碼器-解碼器網(wǎng)絡(luò)組成,第一編碼器-解碼器網(wǎng)絡(luò)用于計(jì)算光流,第二編碼器-解碼器網(wǎng)絡(luò)用于計(jì)算深度和相機(jī)運(yùn)動(dòng);
(三)利用迭代網(wǎng)絡(luò)改進(jìn)深度法線和運(yùn)動(dòng)估計(jì),具體包括:使用兩個(gè)編碼器-解碼器網(wǎng)絡(luò)組成迭代網(wǎng)絡(luò)進(jìn)行迭代處理,訓(xùn)練迭代網(wǎng)絡(luò)以改進(jìn)現(xiàn)有的深度、法線和運(yùn)動(dòng)估計(jì);迭代網(wǎng)絡(luò)的架構(gòu)與自助網(wǎng)絡(luò)相同,但需要額外的輸入;將由自助網(wǎng)絡(luò)或迭代網(wǎng)絡(luò)的先前迭代所估計(jì)的深度圖和相機(jī)運(yùn)動(dòng)轉(zhuǎn)換成光流場(chǎng),并將其與其它輸入一起反饋到所述迭代網(wǎng)絡(luò)的第一編碼器-解碼器中;同樣,使用先前的相機(jī)運(yùn)動(dòng)預(yù)測(cè)將光流轉(zhuǎn)換為深度圖,并將其與光流一起反饋到所述迭代網(wǎng)絡(luò)的第二編碼器-解碼器中;
(四)使用細(xì)化網(wǎng)絡(luò)調(diào)整輸入圖像分辨率,具體包括:通過自助網(wǎng)絡(luò)和迭代網(wǎng)絡(luò)得到低分辨率圖像對(duì),即64×48作為輸入,細(xì)化網(wǎng)絡(luò)將預(yù)測(cè)上調(diào)至全輸入圖像分辨率;它獲得全分辨率輸入對(duì)和最近鄰上采樣深度和法線場(chǎng)作為輸入,輸出256×192的高分辨率圖像對(duì);
(五)通過計(jì)算得到第一視圖中的深度圖和第二視圖的相機(jī)運(yùn)動(dòng)作為估計(jì)結(jié)果。
2.基于權(quán)利要求1所述的基于卷積神經(jīng)網(wǎng)絡(luò)的雙框架 估計(jì)深度和運(yùn)動(dòng)方法,其特征在于,包括端到端的卷積網(wǎng)絡(luò)來計(jì)算連續(xù)的、無約束的圖像對(duì)的深度和相機(jī)運(yùn)動(dòng),雙框架架構(gòu)由多個(gè)堆疊的編碼器-解碼器網(wǎng)絡(luò)組成,包括自助網(wǎng)絡(luò)、迭代網(wǎng)絡(luò)和細(xì)化網(wǎng)絡(luò),核心部分是能夠改進(jìn)自身預(yù)測(cè)的迭代網(wǎng)絡(luò);網(wǎng)絡(luò)不僅估計(jì)深度和運(yùn)動(dòng),而且還估計(jì)表面法線、圖像之間的光流以及匹配的置信度。
3.基于權(quán)利要求1所述的基于卷積神經(jīng)網(wǎng)絡(luò)的雙框架估計(jì)深度和運(yùn)動(dòng)方法,其特征在于,所述第一編碼器-解碼器網(wǎng)絡(luò),具體包括,編碼器由在y和x方向上具有一維濾波器的卷積層對(duì)組成;一維濾波器保持參數(shù)的數(shù)量和運(yùn)行時(shí)間可管理,增加通道數(shù)的同時(shí)以2的步幅逐漸減小空間分辨率;解碼器部分通過一系列向上卷積層從編碼器的表示產(chǎn)生光流估計(jì),該層隨后是兩個(gè)步幅為2的卷積層,它輸出光流場(chǎng)的兩個(gè)分量和它們的置信度的估計(jì)。
4.基于權(quán)利要求1所述的基于卷積神經(jīng)網(wǎng)絡(luò)的雙框架估計(jì)深度和運(yùn)動(dòng)方法,其特征在于,所述第二編碼器-解碼器網(wǎng)絡(luò),具體包括:將光流、其置信度,圖像對(duì)以及被估計(jì)的流場(chǎng)扭曲的第二圖像作為輸入,基于這些輸入,第二編碼器-解碼器網(wǎng)絡(luò)估計(jì)深度、表面法線和相機(jī)運(yùn)動(dòng);除了計(jì)算相機(jī)運(yùn)動(dòng)的額外3個(gè)完全連接層和用于深度預(yù)測(cè)的縮放因子之外,第二編碼器-解碼器網(wǎng)絡(luò)與第一編碼器-解碼器網(wǎng)絡(luò)相同。
5.基于權(quán)利要求1所述的基于卷積神經(jīng)網(wǎng)絡(luò)的雙框架估計(jì)深度和運(yùn)動(dòng)方法,其特征在于,所述訓(xùn)練迭代網(wǎng)絡(luò),具體包括,在訓(xùn)練期間,通過將先前的訓(xùn)練迭代的預(yù)測(cè)附加到minibatch來模擬4次迭代;與展開不同,沒有通過迭代的梯度反向傳播,而是每次迭代的梯度由定義的網(wǎng)絡(luò)輸出的損失來描述:光流,深度,法線和相機(jī)運(yùn)動(dòng)。
6.基于權(quán)利要求1所述的基于卷積神經(jīng)網(wǎng)絡(luò)的雙框架估計(jì)深度和運(yùn)動(dòng)方法,其特征在于,所述(五)通過計(jì)算得到第一視圖中的深度圖和第二視圖的相機(jī)運(yùn)動(dòng)作為估計(jì)結(jié)果,具體包括:獲取結(jié)果之前必須參數(shù)化深度和運(yùn)動(dòng):用r,表示第二相機(jī)的相對(duì)姿態(tài);旋轉(zhuǎn)r=θv是具有角度θ和軸線v的角度軸表示,平移t在笛卡爾坐標(biāo)中給出;
來自具有未知相機(jī)運(yùn)動(dòng)的圖像的場(chǎng)景的重建可以僅按尺度確定,通過歸一化平移和深度值來解決尺度模糊問題,使得||t||=1,學(xué)習(xí)預(yù)測(cè)單位標(biāo)準(zhǔn)平移向量;
網(wǎng)絡(luò)估計(jì)逆深度ξ=1/Z,而不是深度逆深度允許表示無窮遠(yuǎn)處的點(diǎn),并且說明隨著距離增加,點(diǎn)的局部不確定性也隨之增加;為了匹配單元平移,網(wǎng)絡(luò)預(yù)測(cè)標(biāo)量縮放因子s,其用于獲得最終深度值sξ。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市唯特視科技有限公司,未經(jīng)深圳市唯特視科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710025984.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





