[發(fā)明專利]一種基于金字塔切分注意力模塊的遙感圖像語義分割方法有效
| 申請?zhí)枺?/td> | 202111009766.2 | 申請日: | 2021-08-31 |
| 公開(公告)號: | CN113807210B | 公開(公告)日: | 2023-09-15 |
| 發(fā)明(設(shè)計)人: | 李軍懷;喬路琪;王懷軍;曹霆;安洋 | 申請(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06V20/70;G06V20/10;G06V10/52;G06V10/58;G06V10/80;G06V10/764;G06V10/82;G06N3/0464;G06N3/0455;G06N3/048;G06N3/084 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 王敏強 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 金字塔 切分 注意力 模塊 遙感 圖像 語義 分割 方法 | ||
1.一種基于金字塔切分注意力模塊的遙感圖像語義分割方法,其特征在于,具體按照以下步驟實施:
步驟1、獲取高分辨率遙感影像,構(gòu)建遙感圖像多類別語義分割數(shù)據(jù)集;將遙感圖像多類別語義分割數(shù)據(jù)集按照9:1劃分為訓(xùn)練集和測試集,并將訓(xùn)練集和測試集采用基于最佳波段指數(shù)OIF選擇適合遙感地物分類的最佳波段組合,并將選擇后的波段組合作為輸入數(shù)據(jù);
步驟2、搭建基于金字塔切分注意力模塊的遙感圖像語義分割模型;
所述步驟2采用編碼器-解碼器結(jié)構(gòu)搭建基于金字塔切分注意力模塊的遙感圖像語義分割模型,其中編碼器包括主干網(wǎng)絡(luò)、引入金字塔切分注意力模塊的特征增強網(wǎng)絡(luò)和多級特征融合網(wǎng)絡(luò)三部分;
主干網(wǎng)絡(luò):采用移除最后一層全連接層的Resnet-101進(jìn)行遙感圖像高維特征提取,Resnet采用Bottleneck的殘差模塊,從淺層到深層依次得到五個不同層次的特征圖,分別記為L0、L1、L2、L3、L4;
引入金字塔切分注意力模塊的特征增強網(wǎng)絡(luò):特征增強網(wǎng)絡(luò)在主干網(wǎng)絡(luò)輸出的特征圖L4后引入空洞空間金字塔池化ASPP模塊用于空間特征信息獲取,同時采用金字塔切分注意力PSA模塊進(jìn)行特征增強,最后將二者得到的特征圖進(jìn)行特征融合,得到增強的深層特征圖output_Y1;
多級特征融合網(wǎng)絡(luò):在主干網(wǎng)絡(luò)中間的三層特征圖L1、L2、L3后分別采用金字塔切分注意力PSA模塊,進(jìn)行多尺度和跨信道的特征增強,并將增強后的特征圖采用層層級聯(lián)的方式進(jìn)行特征融合,得到融合后的深層特征圖output_Y2;
解碼器對深層特征圖output_Y1采用雙線性插值進(jìn)行4倍上采樣后與深層特征圖output_Y2進(jìn)行特征融合,融合后采用深度可分離卷積重新定義遙感圖像高維特征,最后再次采用雙線性插值進(jìn)行上采樣恢復(fù)至原圖尺寸;
至此基于金字塔切分注意力模塊的遙感圖像語義分割模型搭建完成;
所述步驟2中特征增強網(wǎng)絡(luò)中的空洞空間金字塔池化ASPP分別由1個1×1卷積、3個空洞率分別為6、12、18的3×3的卷積和一個平均池化層并行構(gòu)成;特征圖L4尺寸為2048×16×16,經(jīng)過ASPP分別輸出5個通道數(shù)為256的特征圖,沿通道方向?qū)ζ溥M(jìn)行合并,合并后的通道數(shù)為5×256,再利用1×1卷積進(jìn)行降維,通道數(shù)降為256,輸出的特征圖output_X1尺寸為256×16×16;
所述步驟2中的特征增強網(wǎng)絡(luò)和多級特征融合網(wǎng)絡(luò)中PSA模塊通過四個步驟實現(xiàn):
(1)利用多尺度特征提取算子SPC模塊將輸入的特征圖X沿通道數(shù)切分為S塊,用Xi表示每個單獨的塊,i=0,1…S-1,每個塊有C′=C/S個通道數(shù),對每個塊進(jìn)行分組卷積,獨立學(xué)習(xí)多尺度空間信息,并以局部方式建立跨信道交互,生成不同尺度的特征圖Fi,再通過級聯(lián)方式生成完整的多尺度特征圖F;
不同尺度的特征圖Fi表示為:
Fi=Conv(Ki×KiGi)(Xi)i=0,1,2…S-1
其中,K為卷積核大小,G為分組大小,第i個卷積核大小Ki=2×(i+1)+1,第i個分組大小Fi∈RC′×H×W表示不同尺度的特征圖;
整個多尺度特征圖F∈RC×H×W表示為:
F=Cat([F0,F1,F2…,FS-1]);
(2)利用通道注意力模塊提取不同尺度特征圖的通道注意力向量,再通過串聯(lián)方式得到整個多尺度通道注意力向量;
不同尺度上的通道注意力向量Zi表示為:
Zi=SEWeight(FI),i=0,1,2,…S-1
整個多尺度通道注意力向量Z的串聯(lián)方式為:
(3)利用Softmax激活函數(shù)對不同尺度上的通道注意力向量Zi進(jìn)行特征重新標(biāo)定,得到新的不同尺度通道交互后的注意力權(quán)重atti,建立部分與全局通道注意力的關(guān)系;將特征重新標(biāo)定后的注意力權(quán)重以串聯(lián)的方式進(jìn)行融和,得到整個多尺度通道注意力權(quán)重att;
不同尺度上的通道注意力權(quán)重atti表示為:
整個多尺度通道注意力權(quán)重att表示為:
(4)對重新標(biāo)定后的通道注意力權(quán)重atti和對應(yīng)的特征圖Fi按元素進(jìn)行點乘操作,得到一個不同尺度特征信息注意力加權(quán)之后的特征圖Yi;最后在將加權(quán)后的特征圖Yi進(jìn)行拼接,得到完整的特征圖Out;
不同尺度特征信息注意力加權(quán)之后的特征圖Yi表示為:
Yi=Fi⊙attii=1,2,3…,S-1
完整的特征信息注意力加權(quán)之后的特征圖Out表示為:
Out=Cat([Y0,Y1,…,YS-1])
特征圖Out為經(jīng)過PSA模塊得到的多尺度特征信息更豐富的精細(xì)化特征圖;
所述特征增強網(wǎng)絡(luò)具體為:使用PSA模塊將輸入的特征圖L4從通道上切分為4組,設(shè)置卷積核大小為K={3,5,7,9},分組大小為G={1,4,8,16},得到精細(xì)化特征圖output_X2,精細(xì)化特征圖output_X2尺寸為256×16×16;
將特征圖output_X1和output_X2進(jìn)行特征融合,融合后采用1×1卷積重新定義特征并降維,再采用雙線性插值進(jìn)行4倍上采樣,恢復(fù)至原圖的1/4,輸出特征圖output_Y1尺寸為256×64×64;
所述多級融合網(wǎng)絡(luò)具體為:在特征圖L1、L2、L3后分別引入PSA模塊進(jìn)行特征增強,分別輸出增強后的特征圖為C1、C2、C3;首先對特征圖C3進(jìn)行2倍上采樣后與特征圖C2進(jìn)行特征融合,融合后得到特征圖output_X3;其次將特征圖output_X3進(jìn)行2倍上采樣后與特征圖C1進(jìn)行特征融合,融合后得到特征圖output_Y2,特征圖output_Y2尺寸為原圖的1/4;
步驟3、將步驟1中的遙感圖像多類別語義分割數(shù)據(jù)集送入所述步驟2中的遙感圖像語義分割模型中進(jìn)行訓(xùn)練,得到帶有最優(yōu)參數(shù)的遙感圖像多語義分割模型;
步驟4、對待識別的高分辨率遙感影像采用256×256大小的滑動窗口無重疊的進(jìn)行讀取,然后依次送入所述步驟3中帶有最優(yōu)參數(shù)的遙感圖像語義分割模型中進(jìn)行識別,最后得到遙感圖像語義分割的識別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111009766.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





