[發(fā)明專利]一種基于圖像的同時(shí)檢測平面結(jié)構(gòu)和生成平面描述的方法及應(yīng)用有效
| 申請?zhí)枺?/td> | 202110326862.3 | 申請日: | 2021-03-26 |
| 公開(公告)號: | CN113011359B | 公開(公告)日: | 2023-10-24 |
| 發(fā)明(設(shè)計(jì))人: | 鮑虎軍;章國鋒;葉偉才 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06V20/10 | 分類號: | G06V20/10;G06V10/774;G06V10/74;G06F16/583;G06N3/0464;G06V10/82;G06N3/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖像 同時(shí) 檢測 平面 結(jié)構(gòu) 生成 描述 方法 應(yīng)用 | ||
1.一種基于圖像的同時(shí)檢測平面結(jié)構(gòu)和生成對應(yīng)平面描述的方法,其特征在于,包括:
針對單張圖像,利用平面檢測和描述網(wǎng)絡(luò)SuperPlane,生成圖像的多個3D平面以及每個平面對應(yīng)的描述子;
所述的平面檢測和描述網(wǎng)絡(luò)SuperPlane包括平面檢測子網(wǎng)絡(luò)和平面描述子網(wǎng)絡(luò),所述的平面檢測子網(wǎng)絡(luò)由骨干網(wǎng)絡(luò)和兩個分支構(gòu)成,第一分支采用Unet網(wǎng)絡(luò),第二分支包括區(qū)域生成網(wǎng)絡(luò)RPN+RoIAlign層、卷積層、激活函數(shù)層構(gòu)成;
首先通過骨干網(wǎng)絡(luò)提取圖像特征,得到第一特征圖;
在第一分支中,利用Unet網(wǎng)絡(luò)獲取第一特征圖的深度圖;
在第二分支中,利用區(qū)域生成網(wǎng)絡(luò)RPN和RoIAlign層提取第一特征圖中的局部區(qū)域信息,獲得感興趣區(qū)域;經(jīng)卷積層提取感興趣區(qū)域的特征,得到第二特征圖,再經(jīng)激活函數(shù)層輸出每一個平面的分割蒙板圖;
由深度圖和分割蒙板圖合成3D平面;
所述的平面描述子網(wǎng)絡(luò)由掩碼感知模塊、卷積層、平均池化層、全連接層、內(nèi)部正則化層和L2范數(shù)層構(gòu)成;
將由平面檢測子網(wǎng)絡(luò)輸出的第二特征圖和分割蒙板圖進(jìn)行逐個像素相乘,以獲得掩碼感知的第三特征圖,然后將第三特征圖與第二特征圖拼接作為第四特征圖;將第四特征圖依次經(jīng)卷積層、平均池化層、全連接層后生成矩陣,通過內(nèi)部正則化層轉(zhuǎn)換為向量,最后使用L2范數(shù)層進(jìn)行整體歸一化,得到每一個3D平面對應(yīng)的描述子。
2.根據(jù)權(quán)利要求1所述的基于圖像的同時(shí)檢測平面結(jié)構(gòu)和生成對應(yīng)平面描述的方法,其特征在于,利用一個平面描述基準(zhǔn)來訓(xùn)練網(wǎng)絡(luò),具體為:
獲取圖像對,采用PlaneRCNN生成的平面索引;每對圖像樣本都包含一組對應(yīng)的匹配項(xiàng)、圖像對之間的相對位姿和相機(jī)內(nèi)參,所述的匹配項(xiàng)為平面索引-平面索引,構(gòu)成三元組;
構(gòu)建平面基準(zhǔn),通過相對位姿將圖像對中的一張圖像扭曲到另一張圖像,然后計(jì)算交集IOU,來選擇三元組,篩選出IOU值處于0.4-0.7的三元組作為訓(xùn)練集。
3.根據(jù)權(quán)利要求2所述的基于圖像的同時(shí)檢測平面結(jié)構(gòu)和生成對應(yīng)平面描述的方法,其特征在于,在訓(xùn)練過程中引入循環(huán)扭曲優(yōu)化網(wǎng)絡(luò),根據(jù)兩張視圖對應(yīng)的深度圖進(jìn)行優(yōu)化,具體為:
將第一張視圖中的3D點(diǎn)Pc利用相對姿態(tài)信息投影到第二張視圖中,然后利用雙線性插值從第二張視圖中讀取對應(yīng)的3D點(diǎn)Pn;利用拍攝不同視角的相機(jī)姿態(tài),將Pn轉(zhuǎn)換到第一張視圖的坐標(biāo)系,并計(jì)算轉(zhuǎn)換后的坐標(biāo)與轉(zhuǎn)換前的坐標(biāo)Pn之間的3D距離;
將第二張視圖中的3D點(diǎn)Pn利用相對姿態(tài)信息投影到第一張視圖中,然后利用雙線性插值從第一張視圖中讀取對應(yīng)的3D點(diǎn)Pc;利用拍攝不同視角的相機(jī)姿態(tài),將Pc轉(zhuǎn)換到第一張視圖的坐標(biāo)系,并計(jì)算轉(zhuǎn)換后的坐標(biāo)與轉(zhuǎn)換前的坐標(biāo)Pc之間的3D距離;
通過保持兩張圖像之間重建的3D平面的一致性來提升平面檢測和深度估計(jì)的質(zhì)量。
4.根據(jù)權(quán)利要求3所述的基于圖像的同時(shí)檢測平面結(jié)構(gòu)和生成對應(yīng)平面描述的方法,其特征在于,兩張不同視角的視圖需存在交疊,且兩張視圖的相對姿態(tài)、拍攝不同視角的相機(jī)姿態(tài)已知。
5.根據(jù)權(quán)利要求3所述的基于圖像的同時(shí)檢測平面結(jié)構(gòu)和生成對應(yīng)平面描述的方法,其特征在于,在訓(xùn)練過程中引入平面實(shí)例級三重態(tài)損失,隨機(jī)選擇一組圖像的不同平面匹配對進(jìn)行監(jiān)督,負(fù)樣本的平面對是隨機(jī)選擇的,將平面實(shí)例級三重態(tài)損失的計(jì)算式表示為:
其中,i表示匹配平面的索引,而j是正樣本之外的隨機(jī)索引,m表示一組圖像平面匹配對的數(shù)量,k表示一對匹配平面正負(fù)樣本的數(shù)量,Ai表示錨定輸入,Pi表示匹配平面的正輸入,Nj表示不同平面的負(fù)輸入,f(·)表示編碼的描述子,α表示正負(fù)樣本對之間的邊距。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110326862.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





