[發明專利]一種基于雙分支網絡的顯著目標檢測方法在審
| 申請號: | 202211701856.2 | 申請日: | 2022-12-28 |
| 公開(公告)號: | CN115861637A | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 顏成鋼;郭舒瑤;高宇涵;孫垚棋;朱尊杰;陳楚翹;王鴻奎;王廷宇;殷海兵;張繼勇;李宗鵬;趙治棟 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V10/42 | 分類號: | G06V10/42;G06V10/44;G06V10/774;G06V10/80;G06V10/82;G06N3/0464;G06N3/048 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分支 網絡 顯著 目標 檢測 方法 | ||
1.一種基于雙分支網絡的顯著目標檢測方法,其特征在于,包括以下步驟:
步驟1、對訓練數據集以及測試數據集進行預處理操作;
步驟2、將輸入圖像輸入到模型中進行訓練,具體步驟如下:
1)利用CNN和Tranformer骨干網分別從圖像中提取特征,得到初始特征;
2)為了使骨干網絡后三層的初始特征更加多樣化,采用特征交互模塊(FIM)來補充豐富的多尺度信息;
3)通過特征融合模塊(FFM)來將兩個分支相對應層的特征進行融合;
4)使用邊緣補充模塊(ESM)來增強融合后特征的邊緣信息;
5)最后,將特征送入到解碼器中,得到最終的顯著圖;
步驟3、設計損失函數,對顯著圖進行求損失。
2.根據權利要求1所述的一種基于雙分支網絡的顯著目標檢測方法,其特征在于,步驟1具體方法如下:
1)分別下載訓練集和測試集,采用DUTS-TR作為訓練數據集,DUT-TE作為測試數據集;
2)對訓練集進行預處理;在訓練過程中,為了保證每張圖片的大小一致,首先將訓練數據集中圖像調整至256*256大小;為了增加數據集中樣本的數據量,通過使用隨機翻轉、平移和剪裁來對訓練數據集進行擴增;
3)對測試集進行預處理;測試過程中,每張圖像大小都調整為256*256,然后不經過任何后處理。
3.根據權利要求2所述的一種基于雙分支網絡的顯著目標檢測方法,其特征在于,步驟2具體步驟如下:
1)CNN分支和Tranformer分支分別采用了Resnet101和Swin-B作為骨干網絡,來分別提取圖像的初始特征;
對于Resnet101網絡,由Conv、Res2、Res3、Res4和Res5五層組成;其中,Conv層由7*7卷積層改為了3*3卷積層;沒有使用Conv層的特征,因此可利用的特征可記為{fiC|i=2,3,4,5};
對于Swin-B網絡,由SBlock1、SBlock2、SBlock3、SBlock4和SBlock5五層組成,并且各個層所得特征可記為{fjT|j=1,2,3,4,5};后續主要使用SBlock3、SBlock4和SBlock5層所得到的特征;
2)為了使骨干網絡后三層的初始特征更加多樣化,采用特征交互模塊(FIM)來補充豐富的多尺度信息;
FIM模型的具體定義可以表示為:
Ik=δ(conv1(conv2(gap(tk))·tk)) (1)
公式中,fk表示Resnet101網絡中第k層得到的特征fkC或者Swin-B網絡中第k層得到的特征fkT;和tk則表示運算過程中產生的中間變量;Ik則代表Resnet101網絡中第k層特征經過FIM之后所得到的增強特征/或Swin-B網絡中第k層特征經過FIM之后所得到的增強特征/其中,dconv表示擴張卷積、批歸一化和Relu激活函數的組合;up表示上采樣操作;conv1表示3*3卷積層、BN和Relu的組合;conv2表示1*1卷積層、BN和Relu的組合;gap表示全局平均池化;δ表示softmax函數;
3)通過步驟2),分別得到了Resnet101網絡后三層的增強特征和/以及Swin-B網絡后三層的增強特征/和/并通過特征融合模塊(FFM)來分別將兩個分支對應層得到的增強特征進行融合,得到了三個融合特征/和/
特征融合模塊融合了自我注意力和多模態融合機制;具體定義可以表示為:
其中,表示Resnet101網絡中第m層的增強特征,/表示Swin-B網絡中第m層的增強特征;/和/則代表運算過程中的中間變量;/表示兩個分支的增強特征通過FFM模塊得到的融合特征;m分別為3、4、5;conv3是一個3*3的卷積層;ChannelAtten表示通道注意力;SpatialAtten表示空間注意力;[.]表示Concat操作;Residual代表一個殘差塊;
4)使用邊緣補充模塊(ESM)來增強融合后特征的邊緣信息;
采用Resnet101網絡中的Res2層來增強特征的邊緣信息;為了降低Res2層所提取特征f2C的噪音,將特征f2c送入到卷積注意力模塊(CAM)中,對其進行特征增強;最后將Res2層增強后的特征分別與步驟3)得到的三個融合特征和/進行cat操作,最終得到三個特征F3、F4和F5;
5)最后,將F3、F4和F5三個特征送入到解碼器(Decoder)中,得到最終的顯著圖;
其中,UPn表示上采樣n次;conv4表示3*3的卷積層;[.]表示將特征以通道進行連接;和/代表運算過程中的中間變量;S表示最終得到的顯著圖。
4.根據權利要求3所述的一種基于雙分支網絡的顯著目標檢測方法,其特征在于,步驟3具體方法如下:
利用IoU損失和二元交叉熵損失對整個網絡進行端到端訓練;可以定義為:
Ltol=Lbce+Liou (11)
其中,IoU損失可表示為:
其中,(i,j)表示圖像的像素位置;H和W分別表示圖像的高度和寬度;sum(i,j)表示預測的顯著圖與ground-truth在像素點(i,j)上的的和;mul(i,j)表示預測的顯著圖與ground-truth在像素點(i,j)上的乘積;e設置為1e-6以防止被零除;
二元交叉熵損失Lbce可以表示為:
其中,g表示ground-truth,p表示預測的顯著圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211701856.2/1.html,轉載請聲明來源鉆瓜專利網。





