[發(fā)明專利]一種基于多模態(tài)特征融合的RGB-D圖像語義分割方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210126753.1 | 申請(qǐng)日: | 2022-02-11 |
| 公開(公告)號(hào): | CN114549439A | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設(shè)計(jì))人: | 楊曉文;靳瑜昕;韓慧妍;張?jiān)?/a>;龐敏;韓燮 | 申請(qǐng)(專利權(quán))人: | 中北大學(xué) |
| 主分類號(hào): | G06T7/00 | 分類號(hào): | G06T7/00;G06T7/11;G06T5/00;G06T3/40;G06N3/08;G06N3/04;G06K9/62;G06V10/44;G06V10/764;G06V10/82 |
| 代理公司: | 太原申立德知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 14115 | 代理人: | 程園園 |
| 地址: | 030051*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 特征 融合 rgb 圖像 語義 分割 方法 | ||
1.一種基于多模態(tài)特征融合的RGB-D圖像語義分割方法,其特征在于,包括以下步驟:
步驟1,數(shù)據(jù)預(yù)處理,將單通道的深度圖像轉(zhuǎn)化為三通道的HHA圖像;
步驟2,將RGB和HHA圖像作為輸入數(shù)據(jù),輸入注意力引導(dǎo)多模態(tài)交叉融合分割網(wǎng)絡(luò)模型,所述模型遵循編碼器-解碼器結(jié)構(gòu),所述編碼器從輸入中提取語義特征,所述解碼器采用上采樣技術(shù)恢復(fù)輸入分辨率,為每個(gè)輸入像素分配一個(gè)語義類別。
2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的RGB-D圖像語義分割方法,其特征在于,所述步驟1中三通道分別表示水平視差高于地面的高度、像素的局部表面法線、推斷的重力方向的角度。
3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的RGB-D圖像語義分割方法,其特征在于,所述步驟2中編碼器對(duì)RGB和HHA圖像使用非對(duì)稱雙流分支,包括RGB編碼器和深度編碼器,所述RGB編碼器和深度編碼器分別以ResNet-101網(wǎng)絡(luò)和ResNet-50網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),所述ResNet-101網(wǎng)絡(luò)和ResNet-50網(wǎng)絡(luò)均包括7×7卷積、最大池化操作和Stage1、Stage2、Stage3和Stage4四個(gè)階段,并且改進(jìn)組成主干網(wǎng)絡(luò)的基本塊,即在Bottleneck中加入Maxpool并行模塊,記為MP_Bottleneck,通過增加網(wǎng)絡(luò)寬度的方式提高特征提取性能,如式(1)所示:
FE_out=W3(Cat(W2(W1(Fin)),M_P(W1(Fin)) (1)
其中,F(xiàn)in∈RH×W×C,H、W和C分別表示特征圖的高度、寬度和通道數(shù),W1,W2,W3分別表示1×1,3×3,1×1卷積操作,Cat表示拼接操作,M_P表示最大池化操作,F(xiàn)E_out表示ResNet網(wǎng)絡(luò)每階段的輸出。
4.根據(jù)權(quán)利要求3所述的一種基于多模態(tài)特征融合的RGB-D圖像語義分割方法,其特征在于,在所述RGB編碼器的Stage1、Stage2、Stage3、Stage4四個(gè)階段添加全局特征提取模塊,使用全局特征提取模塊處理FE_out提取全局特征,并且將最終的全局特征和局部特征通過相加的方式結(jié)合起來,組成全局-局部特征提取模塊,上述過程如式(2)~(4)所示:
FGL=FE_out+GC(FE_out) (2)
GC=x+Conv1×1(ReLu(LN(Conv1×1(y)))) (3)
y=x×SoftMax(Conv1×1(x)) (4)
其中,x表示全局特征提取模塊模塊的輸入,GC表示全局特征,F(xiàn)GL表示全局-局部特征,Conv1×1表示1×1卷積操作,LN表示批歸一化操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中北大學(xué),未經(jīng)中北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210126753.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





