[發明專利]基于深度編碼網絡的多視點人體動態三維重建方法及系統有效
| 申請號: | 202010147764.9 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111462302B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 于濤;劉燁斌;鄭澤榮;戴瓊海 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06T17/00 | 分類號: | G06T17/00;G06T7/33;G06T7/55;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 王艷斌 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 編碼 網絡 視點 人體 動態 三維重建 方法 系統 | ||
1.一種基于深度編碼網絡的多視點人體動態三維重建方法,其特征在于,包括以下步驟:
S1,利用訓練數據對深度編碼網絡進行訓練;
S2,使用多個預先標定好的彩色深度相機采集重建對象的多視點彩色深度信息;
S3,根據所述彩色深度相機的標定信息,將所述多視點彩色深度信息輸入融合到一個統一的坐標系空間中,并生成多視點觀測信息的輸入數據體;
S4,將參數化人體模型與所述輸入數據體進行配準,得到對應人體的體態信息,并生成輸入特征體;
S5,將所述輸入數據體和所述輸入特征體作為所述訓練后的深度編碼網絡的輸入,通過所述深度編碼網絡得到所述重建對象的高精度模型;
其中,在步驟S1中所述訓練數據為同一采集對象在不同姿態下的高精度三維掃描結果,對所述高精度三維掃描數據進行彩色深度圖像渲染和傳感器噪聲疊加,再根據能量函數進行參數化模型的配準;
所述能量函數為:
Efitting=Ep2p+Eskeleton+Ereg+Eprior
其中,Efitting為參數化模型配準總能量,Ep2p為參數化模型與高質量掃描結果之間最近鄰點對之間所構造的歐式距離能量項,Eskeleton為骨架關節點能量項,Ereg為正則項,Eprior為先驗能量項;在所述S4中進行配準使用的能量函數與所述S1使用的能量函數相同;
其中,所述將所述輸入數據體和所述輸入特征體作為所述訓練后的深度編碼網絡的輸入,通過所述深度編碼網絡得到所述重建對象的高精度模型,包括:
使用參數化人體模型生成特征體,將參數化人體模型的頂點索引存入所述特征體中對應體素位置,使用三維高斯模型對所述特征體進行平滑操作,使參數化模型頂點索引特征分布到整個特征體中;
將所述輸入特征體與所述輸入數據體進行逐體素合并,獲得所述深度編碼網絡的編碼體,所述編碼體經過所述深度編碼網絡的編碼和解碼過程,得到高精度模型的輸出體表達,從所述輸出體表達中提取出高精度模型。
2.根據權利要求1所述的基于深度編碼網絡的多視點人體動態三維重建方法,其特征在于,所述傳感器噪聲的模型包括切向噪聲模型和徑向噪聲模型,均使用高斯模型進行描述,所述切向噪聲模型的方差為:
σL(θ)[m]=σL(θ)[px]·z·ρx/fx
其中,σL(θ)[px]為像素域切向高斯噪聲模型的方差,σL(θ)[m]為以米為單位的切向高斯噪聲模型的方差,θ為場景觀測點的法向與相機觀測方向的夾角,z為場景觀測點的深度值,px為像素尺寸,fx為相機焦距,px與fx的單位相同;
所述徑向噪聲模型的方差為:
σz(z,θ)=0.0012+0.0019(z-0.4)2,10°≤θ≤60°
其中,z為場景觀測點的深度值。
3.根據權利要求1所述的基于深度編碼網絡的多視點人體動態三維重建方法,其特征在于,在步驟S1中,所述深度編碼網絡使用深度神經網絡結構進行搭建,其訓練損失函數包括三維損失函數和二維渲染損失函數,具體為:
其中,m為深度編碼網絡輸出三維模型的頂點總數,vi為深度編碼網絡輸出三維模型頂點,pi為vi在高質量掃描模型上的最近點;為圖像前景分割掩膜,約束所述渲染損失函數僅作用于圖像中的前景區域,R為使用深度編碼網絡輸出三維模型渲染出的彩色圖像,C為對應視點相機采集到的真實彩色圖像。
4.根據權利要求1所述的基于深度編碼網絡的多視點人體動態三維重建方法,其特征在于,在步驟S2中,相機標定過程使用彩色深度相機同時采集彩色和紅外圖像對,然后使用棋盤格進行標定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010147764.9/1.html,轉載請聲明來源鉆瓜專利網。





