[發明專利]一種基于深度學習視頻監督的單圖像三維重建方法在審
| 申請號: | 202010744081.1 | 申請日: | 2020-07-29 |
| 公開(公告)號: | CN111950404A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 孫正興;仲奕杰;武蘊杰;宋有成 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06Q10/04;G06T17/00 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 視頻 監督 圖像 三維重建 方法 | ||
1.一種基于深度學習視頻監督的單圖像三維重建方法,其特征在于,包括如下步驟:
步驟1,構建物體位姿預測模塊:搭建位姿預測網絡,將物體圖像輸入到位姿預測網絡模型中,得到對輸入圖像中物體的位姿預測;
步驟2,構建物體三維形狀估計模塊:搭建三維點云預測網絡,將物體圖像輸入到三維點云預測網絡模型中,得到對輸入圖像中物體的三維點云預測;
步驟3,構建多幀形狀融合模塊:利用步驟1,步驟2中預測得到的物體的位姿預測和三維點云預測一起輸入到融合模塊中,通過迭代優化多幀一致性約束、多幀平滑約束及多幀形狀融合以進一步進行三維點云預測結果處理;
步驟4,整體框架訓練:將輸入視頻序列通過實例分割方法得到物體及其掩碼序列每一幀并行的輸入至模型中,得到每一幀的視角及三維點云預測,輸入至多幀融合模塊得到融合的點云,通過重投影以及多幀約束聯合優化位姿預測模塊和三維形狀估計模塊,利用訓練好的三維形狀估計模塊實現單圖像三維點云預測。
2.根據權利要求1所述的方法,其特征在于,步驟1包括以下步驟:
步驟1-1,搭建位姿預測網絡模塊包括構建物體位姿預測網絡模型G;
步驟1-2,將輸入的視頻幀序列{It}生成對每一幀的物體的位姿預測其中t∈{1,2,...,n},n為視頻幀序列總長度,It表示第t幀圖像,Pt表示對第t幀圖像的位姿預測結果。
3.根據權利要求2所述的方法,其特征在于,步驟1-1中,所述物體位姿預測網絡G包含一個編碼器及一個解碼器,網絡G各層中可訓練的參數表示為θG;編碼器部分包含3×3的九層卷積層,卷積層后連接批規范池化層,選取ReLU作為激活函數,再連接兩個全連接層,選取ReLU作為激活函數,最終得到對輸入的編碼;解碼器部分包含三層全連接層,選取ReLU作為激活函數。
4.根據權利要求1所述的方法,其特征在于,步驟2中包括以下步驟:
步驟2-1,搭建三維點云預測網絡包括構建三維形狀預測網絡模型K,網絡K各層中的可訓練參數表示為θK;
步驟2-2,將輸入的視頻幀序列{It}生成對每一幀的物體的三維點云預測及每個點的置信度{St},其中t∈{1,2,...,n},n為視頻幀序列總長度,Ct表示對第t幀圖像的三維點云預測結果,St表示對第t幀圖像的三維點云預測結果置信度。
5.根據權利要求4所述的方法,其特征在于,步驟2-1中,所述三維形狀預測網絡K包含一個編碼器及一個解碼器,網絡K各層中的可訓練參數表示為θK;編碼器部分包含3×3的九層卷積層,卷積層后連接批規范池化層,選取ReLU作為激活函數,再連接兩個全連接層,選取ReLU作為激活函數,最終得到對輸入的編碼;解碼器部分包含一層全連接層,選取雙曲函數tanh作為激活函數。
6.根據權利要求1所述的方法,其特征在于,步驟3包括以下步驟:
步驟3-1,融合多幀預測結果得到對輸入物體視頻序列統一的預測C;
步驟3-2,將預測C在不同視角下進行重投影;
步驟3-3,設計對于位姿預測模塊和三維形狀估計模塊的損失函數L;
步驟3-4,將位姿預測點云預測和準備好的與輸入對應的真實圖像掩碼Maskt輸入,并計算損失L,通過不斷迭代優化L以聯合更新位姿預測網絡模型G的參數θG和三維點云估計網絡模型K的參數θK。
7.根據權利要求6所述的方法,其特征在于,步驟3-1中,所述的融合多幀預測結果C計算公式如下:
其中,f為輸入視頻序列總長度,Ci為第i幀的點云預測置信度,Si為第i幀的點云預測結果,i取值1-f。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010744081.1/1.html,轉載請聲明來源鉆瓜專利網。





