[發明專利]一種基于卷積神經網絡的Kinect深度圖修復方法有效
| 申請號: | 201910220680.0 | 申請日: | 2019-03-22 |
| 公開(公告)號: | CN109978786B | 公開(公告)日: | 2020-09-25 |
| 發明(設計)人: | 劉波;趙建英 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06T5/00 | 分類號: | G06T5/00;G06T5/20;G06T7/38;G06T7/55;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 kinect 深度 修復 方法 | ||
1.一種基于卷積神經網絡的Kinect深度圖修復方法,其特征在于,包括:模型訓練階段和深度圖修復階段;
所述模型訓練階段包括以下步驟:
(1)預處理訓練數據:將Kinect的深度圖和RGB圖進行對齊操作,生成對齊后的RGB圖和深度圖;生成掩碼圖,圖中包括有效信息和無效信息兩部分,有效信息代表Kinect深度圖的深度有效部位,無效信息代表Kinect深度圖的深度無效部位,且與深度圖寬度高度相等,通道數為1;其中對齊后的RGB圖作為卷積神經網絡訓練數據,對齊后的深度圖和掩碼圖作為網絡的監督信息;
(2)構建待訓練的卷積神經網絡模型:所述的卷積神經網絡包括:特征提取模塊,深度恢復模塊,深度圖優化卷積模塊;
所述神經網絡的輸入為數據集中對齊后的RGB圖;
所述特征提取模塊包括5個串聯的特征提取卷積塊,每個特征提取卷積塊由三個卷積層和一個池化層構成,其中,最后一個特征提取卷積塊沒有池化層,所述的特征提取模塊用于對輸入圖片進行不同尺度的特征提取;特征提取模塊的輸入為步驟(1)所述的對齊后的RGB圖,輸出為每個特征提取卷積塊最后一層卷積層的特征圖;
所述的深度恢復模塊包括5個深度恢復卷積塊,第1個深度恢復卷積塊由3個卷積層構成,第2-5個卷積塊由一個上采樣層和三個卷積層構成,第1個深度恢復卷積塊的輸入為第五個特征提取卷積塊的輸出,第2-5個深度恢復卷積塊的上采樣層的輸入分別為上一個深度恢復卷積塊的輸出,在每個上采樣層之后加入跳躍連接結構,即將上采樣層的結果和與之輸出特征圖形狀相同的對應特征提取卷積塊的輸出進行通道合并再送入卷積層的計算,連續經過5個串聯的深度恢復模塊,對特征圖進行4次上采樣,得到與輸入圖片寬度和高度相同的深度圖;深度恢復卷積模塊最終輸出的結果為粗糙的深度圖;
所述深度圖優化卷積模塊包括四個連續的卷積層,作用是對深度恢復模塊所生成的粗糙的深度圖進行細節上的優化;模塊的輸入為對齊后的RGB圖和深度恢復卷積模塊輸出的粗糙的深度圖在通道維度進行合并后的特征圖,模塊的輸出結果為最終的深度預測結果;
(3)構建訓練模型需要的損失函數模塊:所述損失函數模塊用于優化模型輸出的深度圖和監督信息的差值;模型在訓練深度恢復模塊和深度圖優化卷積模塊時候采用的損失函數有所不同,其中深度恢復模塊采用的損失函數公式為:
其中n為深度圖像素數目,y為深度恢復模塊估計出的深度圖結果,y*為Kinect對齊后深度圖,yi為y中第i個像素的值,為y*中第i個像素的值,maski為掩碼圖中第i個像素的值;
深度圖優化卷積模塊使用的損失函數公式為:
Efinal=D(y,y*)+α*Gx(gradXy,gradXy*)+β*Gy(gradYy,gradYy*),
其中,D(y,y*)與上文中的意義相同,y為深度圖優化卷積模塊輸出的深度圖,y*為Kinect對齊后深度圖,gradXy為y在x方向上的梯度,gradXy*為y*在x方向上的梯度,gradYy為y在y方向上的梯度,gradYy*為y*在y方向上的梯度,Gx(gradXy,gradXy*)和Gy(gradYy,gradYy*)分別為y與y*在x方向和y方向上的梯度值誤差,α和β是超參數,α和β的取值范圍為[0.05,0.2],
(4)使用隨機梯度下降法迭代訓練所述卷積神經網絡,先訓練特征提取模塊和深度恢復模塊,使網絡達到收斂,保存參數模型,然后再加載保存的參數模型并凍結前兩個模塊參數只訓練深度圖優化卷積模塊直到模型再次收斂并且保存模型參數;
所述深度圖修復階段包括以下步驟:
(1)加載模型訓練階段訓練好的最終的神經網絡模型,輸入待修復漏洞的對應的RGB圖像得到模型預測的深度圖;
(2)根據模型訓練階段步驟(1)中同樣的辦法求出待修復的深度圖的掩碼圖,依據掩碼圖中標記的深度無效位置,對無效位置的像素使用所述模型預測的深度圖的對應位置的深度值進行填充得到填充完成的深度圖,具體用公式表示如下:
其中Depthfill為填充后的深度圖,DepthKinect為待修復漏洞的深度圖,Depth′為最終的神經網絡模型估計深度圖,mask為用于標記待修復漏洞的深度圖中有效深度值的掩碼圖矩陣,mat1為與mask相同形狀的全1矩陣,為哈達瑪積;
(3)對所述填充完成的深度圖進行二維滑動中值濾波,所得到的結果最終的深度圖修復結果。
2.根據權利要求1所述的一種基于卷積神經網絡的Kinect深度圖修復方法,其特征在于:所述的梯度值誤差計算方法如下:
其中gradXyi為yi在x方向上的梯度,gradXy*i為y*i在x方向上的梯度,gradYyi為yi在y方向上的梯度,gradYy*i為y*i在y方向上的梯度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910220680.0/1.html,轉載請聲明來源鉆瓜專利網。





