[發明專利]基于深度語義融合的卷積神經網絡的三維語義圖重建方法有效
| 申請號: | 202010350966.3 | 申請日: | 2020-04-28 |
| 公開(公告)號: | CN111583390B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 楊晨;陳琦;張靖宇;李丹;耿莉 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06T17/00 | 分類號: | G06T17/00;G06T15/00;G06V10/774;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 閔岳峰 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 語義 融合 卷積 神經網絡 三維 重建 方法 | ||
1.基于深度語義融合的卷積神經網絡的三維語義圖重建方法,其特征在于,包括以下步驟:
1)選擇已有的帶有語義分割和深度估計的NYU數據集,將訓練數據劃分為訓練數據集和驗證數據集;
2)搭建深度語義融合的卷積神經網絡模型,使用訓練數據集訓練模型,當訓練的模型在驗證數據集上達到設定的精度,保存網絡模型參數;具體實現方法如下:
201)搭建基于深度語義融合的卷積神經網絡模型時,根據數據集標簽和兩個任務的特性,對網絡結構進行設計;具體實現方法如下:
2011)搭建基于深度語義融合的卷積神經網絡模型時,分為編碼層,解碼層,判別層和輸出層,其中編碼層對圖像進行降采樣提取特征,解碼層進行像素點語義預測和深度距離預測;
2012)搭建基于深度語義融合的卷積神經網絡編碼層時,分為三步:
第一:根據公式將圖像進行標準化預處理,根據三通道的RGB自然圖像統計特征,均值img_mean每個通道取值為(0.485,0.456,0.406),方差img_std為每個通道的取值為(0.229,0.224,0.225);
第二:使用第一層對預處理后的特征圖像使用線性插值的方法縮小特征圖像分辨率,經過反復實驗發現,當輸出特征圖像大小400*300*3分辨率時,基于深度語義融合的卷積神經網絡推理的時間和準確率效果最好;
第三:將深度可分離卷積核,BatchNorm函數,Relu激活函數通過累加設計convbnrelu模塊,將三個convbnrelu模塊累加成一個block模塊,按照殘差計算的方式連接所有block模塊得到編碼層;
2012)搭建基于深度語義融合的卷積神經網絡解碼層時,分為兩步:
第一:對編碼層得到的特征圖像使用卷積核尺度大小為1的標準卷積核與窗口大小為5的最大池化交替進行運算,得到進一步細化的特征圖像;
第二:使用雙線性插值對進一步細化的特征圖像進行上采樣,還原得到與上一層特征圖像大小相同的特征圖像,將兩層圖像像素按照相同位置相加的方法進行融合;
2013)搭建基于深度語義融合的卷積神經網絡判別層時,使用兩個分支網絡基于卷積核尺度大小為1的標準卷積核,分別預測語義信息和深度距離;
2014)搭建基于深度語義融合的卷積神經網絡輸出層時,將判別層預測的語義矩陣和深度矩陣通過雙線性插值的方法還原成與原圖像分辨率相同的語義矩陣和深度矩陣;
202)訓練基于深度語義融合的卷積神經網絡模型時,根據數據集標簽和多任務的特性,設計損失函數進行訓練;
3)使用訓練好的模型對測試圖像的每個像素點進行深度距離和語義信息的預測,生成深度圖像和語義圖像;
4)融合深度圖像和語義圖像重建三維語義圖像。
2.根據權利要求1所述的基于深度語義融合的卷積神經網絡的三維語義圖重建方法,其特征在于,步驟202)的具體實現方法如下:
訓練基于深度語義融合的卷積神經網絡模型時,按照公式設計損失函數,其中p表示像素點語義真實值,q表示像素點語義預測值,y表示像素點深度距離真實值,f(x)表示像素點深度距離預測值,λ為0.4;
Loss(p,q,y,f(x),x)=-λH(p,q)+(1-λ)L(y-f(×))。
3.根據權利要求1所述的基于深度語義融合的卷積神經網絡的三維語義圖重建方法,其特征在于,步驟3)的具體實現方法如下:
301)生成語義圖像時,將得到的640*480*40的語義矩陣選擇每個像素概率最大的值所在位置作為標簽,轉化為640*480*1的語義圖像;將每一個語義標簽對應一個RGB像素值,根據對應的RGB值轉化為640*480*3的語義圖像;
302)生成深度圖像時,將得到的640*480*1的深度矩陣每個值擴大5000倍,截取整數部分;然后按照uint16將其進行存儲,最后轉化為深度圖像;讀取深度圖像時,通過讀取像素然后縮小5000倍即可。
4.根據權利要求1所述的基于深度語義融合的卷積神經網絡的三維語義圖重建方法,其特征在于,步驟4)的具體實現方法如下:
融合深度圖像和語義圖像重建三維語義圖像時,讀取深度圖像縮小5000倍后作為深度值,以圖像左上角為坐標原點為每個像素點建立三維坐標;整合三維坐標和RGB值生成點云數據;將所有的點云數據整合,生成點云圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010350966.3/1.html,轉載請聲明來源鉆瓜專利網。





