[發(fā)明專利]一種基于注意力機制的新型多粒度特征融合方法在審
| 申請?zhí)枺?/td> | 202211435628.5 | 申請日: | 2022-11-16 |
| 公開(公告)號: | CN115905999A | 公開(公告)日: | 2023-04-04 |
| 發(fā)明(設(shè)計)人: | 徐國平;吳興隆;冷雪松;王霞霞;廖文濤;張炫 | 申請(專利權(quán))人: | 武漢工程大學(xué) |
| 主分類號: | G06F18/25 | 分類號: | G06F18/25;G06N3/0464;G06N3/08 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 樊凡 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 注意力 機制 新型 粒度 特征 融合 方法 | ||
本發(fā)明提供了一種基于注意力機制的新型多粒度特征融合方法,以卷積網(wǎng)絡(luò)獲取得到的細粒度特征、加窗MLP構(gòu)建的塊粒度特征以及MLP提取的全局粒度特征為處理對象,針對塊粒度和全局粒度特征的特點、粗粒度和細粒度特征的特點,構(gòu)建了兩個不同粒度之間的特征融合模塊;利用不同粒度特征的特點,將注意力機制引入不同粒度特征的融合過程中,完成了將全局粒度特征經(jīng)過變換轉(zhuǎn)化為注意力權(quán)重、實現(xiàn)窗口塊粒度特征和全局粒度特征的融合,以及從窗口塊粒度特征與全局粒度特征融合特征中提取注意力權(quán)重、實現(xiàn)對細粒度特征的過濾和邊緣的強化的過程;實現(xiàn)了高效融合卷積網(wǎng)絡(luò)、Transformer或MLP網(wǎng)絡(luò)的不同粒度特征的功能。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺語義分割技術(shù)領(lǐng)域,具體涉及一種基于注意力機制的新型多粒度特征融合方法。
背景技術(shù)
近十年來,卷積神經(jīng)網(wǎng)絡(luò)在圖像處理各個領(lǐng)域(如圖像識別、目標檢測、語義分割)取得了很大進展,出現(xiàn)了像ResNet、YOLO、FCN等經(jīng)典的網(wǎng)絡(luò)模型。盡管卷積神經(jīng)網(wǎng)絡(luò)具有很強的特征學(xué)習(xí)能力,但由于卷積核大小的限制,卷積神經(jīng)網(wǎng)絡(luò)只能基于大小固定的卷積核構(gòu)建像素間的細粒度局部特征,而無法對特征圖中每一個像素建立全局關(guān)系。一些研究通過引入空洞卷積、特性金字塔、自注意力機制等方法改進卷積網(wǎng)絡(luò)局部性引起的問題。但這些研究由于卷積網(wǎng)絡(luò)自身存在的局限性,依然無法有效的提取全局上下文特征。
基于完全自注意力機制的Transformer架構(gòu)由于能夠?qū)μ卣鲌D中每一個位置建立全局關(guān)系,在自然語言處理領(lǐng)域得到了廣泛的研究。過去幾年來,視覺Transformer(ViT)通過對輸入圖像進行分塊,實現(xiàn)了基于完全自注意力操作建立特征圖每一位置之間的全局(粗粒度)關(guān)系。但是由于ViT缺少卷積操作的先驗偏置,同時建立長程依賴關(guān)系計算復(fù)雜多,因而無法直接用于對實時性要求高的計算機視覺任務(wù)中。后續(xù)有一系列的工作針對這兩個問題展開工作,如Swin?Transformer和DeiT,但在運行效率方面依然無法達到實時的要求。近年來,研究者發(fā)現(xiàn)僅使用混合的多層感知器(MLP)同樣可以對特征建立全局依賴關(guān)系。相比ViT,混合MLP的處理速度更快。
總結(jié)以上內(nèi)容,卷積網(wǎng)絡(luò)對局部特征具有較強的建模能力、Transformer和MLP能夠?qū)θ值拈L程依賴關(guān)系進行建模。目前研究發(fā)現(xiàn),混合卷積操作和Transformer或MLP操作構(gòu)建得到的網(wǎng)絡(luò),能夠在效率和性能方面達到相比卷積網(wǎng)絡(luò)和Transformer或MLP網(wǎng)絡(luò)更好的平衡。而把兩種操作混合在一起必然要面對的問題是如何對卷積網(wǎng)絡(luò)提取得到的細粒度特征和MLP或Transformer提取到的粗粒度特征如何進行高效的融合。典型的方法是直接對兩種不同粒度的特征進行相加、相乘或者并接在一起,但這些操作忽視了不同特征之間的差異性和關(guān)聯(lián)性。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是:提供一種基于注意力機制的新型多粒度特征融合方法,用于高效融合卷積網(wǎng)絡(luò)、Transformer或MLP網(wǎng)絡(luò)的不同粒度特征。
本發(fā)明為解決上述技術(shù)問題所采取的技術(shù)方案為:一種基于注意力機制的新型多粒度特征融合方法,包括以下步驟:
S0:搭建基于注意力機制的新型多粒度特征融合系統(tǒng),包括編碼網(wǎng)絡(luò)、解碼網(wǎng)絡(luò)、第一融合模塊和第二融合模塊;第一融合模塊用于融合全局粒度特征圖與塊粒度特征圖,輸出粗粒度特征圖;第二融合模塊用于融合粗粒度特征圖與細粒度特征圖,輸出最終融合特征圖;
S1:將圖像輸入編碼網(wǎng)絡(luò),使用卷積操作提取圖像的細粒度特征圖fc,特征尺度為2H×2W×C;
S2:將經(jīng)過卷積操作得到的特征輸入加窗多層感知器W-MLP,提取圖像的塊粒度特征圖fm,特征尺度為2H×2W×C;
S3:將經(jīng)過卷積操作得到的特征輸入多層感知器MLP,提取圖像的全局粒度特征圖fg;全局粒度特征圖fg的特征尺度為H×W×C’;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢工程大學(xué),未經(jīng)武漢工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211435628.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





