[發明專利]一種基于深度學習視頻監督的單圖像三維重建方法在審
| 申請號: | 202010744081.1 | 申請日: | 2020-07-29 |
| 公開(公告)號: | CN111950404A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 孫正興;仲奕杰;武蘊杰;宋有成 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06Q10/04;G06T17/00 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 視頻 監督 圖像 三維重建 方法 | ||
本發明提供了一種基于深度學習視頻監督的單圖像三維重建方法,包括以下步驟:1)構建了物體位姿預測模塊:根據輸入圖像中的物體可以得到其相機拍攝相對于物體的位置;2)構建了物體三維形狀估計模塊:根據輸入的單幅物體圖像通過迭代優化損失預測得到它的三維點云;3)構建了多幀形狀融合模塊:將視頻圖線序列并行得輸入以上兩模塊中,可以得到單幀的相機位姿及三維形狀預測,通過多幀權重融合以及一致性約束、平滑性約束得到更準確地預測;4)整體訓練框架:包括數據預處理、模型框架訓練及測試三個階段。本發明方法實現了端到端的三維重建,能夠使用視頻序列進行訓練,在測試階段僅使用單圖像就能夠預測其三維點云。
技術鄰域
本發明屬于三維重建技術鄰域,具體涉及一種基于深度學習視頻監督的單圖像三維重建方法。
背景技術
近年來,隨著深度學習的發展計算機視覺問題的解決都得到了較大程度的發展。近期各種二維圖像處理的技術逐漸被完善適用于三維問題中,物體三維形狀的重建也成為了熱點問題之一。以往的許多方法都需要完整的三維模型數據進行監督,然而這樣的數據是稀少且獲取過程復雜代價昂貴的。由此又出現了利用眾多多圖像以及單圖像的重建方法,由于監督信息的減弱,將導致局部細節精度的降低以及物體視角的歧義性。同時多圖像方法需要依賴訓練輸入圖像間的相關性,這在真實場景下是較難大量得獲取的,而單圖像由于信息總量的減少,不僅需要引入其他額外信息,還會導致重建精度的大幅降低。
為解決三維重建的問題,目前主要的技術思路有如文獻1:J.L.Sch€onbergerand J.-M.Frahm,“Structure-from-motion revisited,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.,2016,pp.4104–4113利用傳統優化方法進行重建。如文獻2:H.Fan,H.Su,and L.Guibas,“A point set generation network for 3D objectreconstruction from asingle image,”in IEEE CVPR,vol.38,2017使用大規模三維數據集,最早使用點云表示進行三維重建,并提出了點云見距離的計算標準。文獻3:C.B.Choy,D.Xu,J.Gwak,K.Chen,and S.Savarese.3DR2N2:A unified approach for single andmulti-view 3D object reconstruction.In ECCV 2016提出了一種使用循環神經網絡的多圖像三維重建方法,該方法可以利用之前輸入的圖像信息完成后續輸入的重建。文獻4:M.Wang,L.Wang,and Y.Fang.3DensiNet:A robust neural network architecturetowards 3D volumetric object prediction from 2D image.In ACM MM 2017使用最大池化來聚合來自輸入圖像的特征以用于重建。文獻5:[38]Multi-view Consistency asSupervisory Signal for Learning Shape and Pose Prediction 2018提出了不需要真實拍攝視角輸入的多圖像重建方法。雖然這些重建方法都能夠得到較理想的三維重建結果,但是由于三維數據的獲取困難及昂貴,多圖像相關性的輸入約束以及運行過程的耗時耗內存、對輸入順序的敏感等各種問題,以上方法都有著不足。
發明內容
發明目的:本發明所要解決的技術問題是針對現有技術的不足,提供一種基于深度學習視頻監督的單圖像三維重建方法,包括如下步驟:
步驟1,構建物體位姿預測模塊:搭建位姿預測網絡,將物體圖像輸入到位姿預測網絡模型中,得到對輸入圖像中物體的位姿預測;
步驟2,構建物體三維形狀估計模塊:搭建三維點云預測網絡,將物體圖像輸入到三維點云預測網絡模型中,得到對輸入圖像中物體的三維點云預測;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010744081.1/2.html,轉載請聲明來源鉆瓜專利網。





