[發(fā)明專利]一種基于通道注意力的空間注意力計(jì)算方法在審
| 申請?zhí)枺?/td> | 202210087706.0 | 申請日: | 2022-01-25 |
| 公開(公告)號: | CN114492631A | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 李國強(qiáng);方奇;查琳琳 | 申請(專利權(quán))人: | 燕山大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 石家莊眾志華清知識產(chǎn)權(quán)事務(wù)所(特殊普通合伙) 13123 | 代理人: | 張建 |
| 地址: | 066004 河北*** | 國省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 通道 注意力 空間 計(jì)算方法 | ||
1.一種基于通道注意力的空間注意力計(jì)算方法,其特征在于:包括以下步驟:
步驟1:獲取通道注意力圖和通道細(xì)化特征圖;
步驟2:對對步驟1中得到的通道細(xì)化特征圖的通道進(jìn)行分組,將通道細(xì)化特征圖的通道分為重要特征和次重要特征;
步驟3:對步驟2中得到的重要特征和次重要特征均進(jìn)行通道軸方向的平均池化和最大池化操作;將各自的兩種池化結(jié)果進(jìn)行特征聚合;
步驟4:將步驟3中得到的聚合后的結(jié)果經(jīng)過一層共享卷積層,進(jìn)而生成一對空間特征描述符;
步驟5:對步驟4中獲得的這對空間特征描述符進(jìn)行非線性操作,即經(jīng)過BN層和ReLU層;
步驟6:將步驟5中得到的這兩個(gè)空間特征描述符進(jìn)行通道維度上的聚合,再經(jīng)過一層卷積層,進(jìn)而獲得空間注意力描述子;
步驟7:將步驟6中得到的空間注意力描述子經(jīng)過BN層,ReLU層和Sigmoid層,進(jìn)而獲得了一個(gè)2D的空間注意力圖。
2.根據(jù)權(quán)利要求1所述的一種基于通道注意力的空間注意力計(jì)算方法,其特征在于:在步驟1中獲取的通道注意力圖和通道細(xì)化特征均由SENet或ECA模塊前向推導(dǎo)生成;其中,通道注意力圖是一個(gè)1D向量,向量中的每一個(gè)值對應(yīng)于通道細(xì)化特征中對應(yīng)通道的重要程度。
3.根據(jù)權(quán)利要求1所述的一種基于通道注意力的空間注意力計(jì)算方法,其特征在于:在步驟2中采用通道分離技術(shù)對通道細(xì)化特征的通道分組,分為重要特征和次重要特征,具體操作步驟包括:
(1)獲得通道細(xì)化特征圖的通道維度,即通道數(shù)C;
(2)引入超參數(shù):分離率λ,該參數(shù)是重要通道和次重要通道的分界線;將通道數(shù)和分離率相乘,取乘積的最近偶數(shù),獲得重要通道的數(shù)量Cim;使用通道數(shù)減去重要通道數(shù),獲得次重要通道數(shù)Csubim;上述的計(jì)算過程如公式(1)和(2)所示:
Cim=|C·λ|even (1)
Csubim=C-CimCsubim=C-Cim (2)
其中|t|even表示距離t值最近的偶數(shù);
(3)在通道注意力圖中找到前Cim個(gè)最大的值,同時(shí)在這Cim個(gè)大值里面確定最小的值m;
(4)將通道注意力圖中的值和m進(jìn)行比較,大于或等于m的值重新賦為1,小于m的值重新賦為0,從而獲得了重要通道掩碼important_mask;
(5)將通道注意力圖中的值和m進(jìn)行比較,大于或等于m的值重新賦為0,小于m的值重新賦為1,從而獲得了次重要通道掩碼sub-important_mask;
(6)將重要通道掩碼和次重要通道掩碼分別和通道細(xì)化特征圖進(jìn)行元素相乘,進(jìn)而獲得重要特征和次重要特征。
4.根據(jù)權(quán)利要求1所述的一種基于通道注意力的空間注意力計(jì)算方法,其特征在于:在步驟3中對重要特征和次重要特征均沿著通道軸方向進(jìn)行平均池化和最大池化操作;池化操作結(jié)束后,將各自的兩種池化結(jié)果進(jìn)行通道維度上的聚合。
5.根據(jù)權(quán)利要求1所述的一種基于通道注意力的空間注意力計(jì)算方法,其特征在于:在步驟4中對聚合結(jié)果使用一層共用卷積層,從而獲得一對空間特征描述符,卷積層的卷積核大小為7×7。
6.根據(jù)權(quán)利要求1所述的一種基于通道注意力的空間注意力計(jì)算方法,其特征在于:步驟5中對步驟4中獲得的這兩個(gè)空間特征描述符進(jìn)行批量歸一化和使用ReLU函數(shù)激活。
7.根據(jù)權(quán)利要求1所述的一種基于通道注意力的空間注意力計(jì)算方法,其特征在于:在步驟6中將經(jīng)過非線性操作后的空間特征描述符在通道維度上進(jìn)行特征聚合,再經(jīng)過一層卷積層,得到空間注意力描述子;該卷積層不同于之前的共享卷積層,其卷積核的大小依然為7×7,卷積核尺寸的選擇和選擇共享卷積層卷積核尺寸的思想一致。
8.根據(jù)權(quán)利要求1所述一種基于通道注意力的空間注意力計(jì)算方法,其特征在于:在在所述步驟7中對空間注意力描述子進(jìn)行一系列的非線性操作,非線性操作順序?yàn)锽N層,ReLU層和Sigmoid層,最終獲得一個(gè)2D的空間注意力圖;該注意力圖是一個(gè)二維矩陣,大小和原通道細(xì)化特征圖大小一致;
將上述步驟用數(shù)學(xué)公式進(jìn)行表示,如公式(3),(4),(5),(6)所示:
F’=F’1+F’2 (3)
S1=Φ1(C2D1,7×7[AvgPool(F'1);MaxPool(F'1)]) (4)
S2=Φ1(C2D1,7×7[AvgPool(F'2);MaxPool(F'2)]) (5)
AS=Φ2(C2D2,7×7[S1;S2]) (6)
其中,(3)式表示通道分離的過程,F(xiàn)’表示通道細(xì)化特征,F(xiàn)’1表示重要特征,F(xiàn)’2表示次重要特征;(4)式中Φ1表示BN層和ReLU層的集合,即非線性操作;C2D1,7×7表示共享卷積層,其卷積核大小為7×7;[a;b]表示將a,b兩個(gè)特征聚合起來;AvgPool表示平均池化操作;MaxPool表示最大池化操作;(4)式生成的是重要特征對應(yīng)的空間特征描述符S1,(5)式生成的是次重要特征對應(yīng)的空間特征描述符S2;(6)式中Φ2表示BN層,ReLU層和Sigmoid層的集合;C2D2,7×7表示第二個(gè)卷積層,其卷積核尺寸為7×7。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于燕山大學(xué),未經(jīng)燕山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210087706.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





