[發明專利]一種基于特征擴展性學習的弱監督目標定位方法有效
| 申請號: | 202111004064.5 | 申請日: | 2021-08-30 |
| 公開(公告)號: | CN113838130B | 公開(公告)日: | 2023-07-18 |
| 發明(設計)人: | 曹劉娟;陳志威 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06V10/24 | 分類號: | G06V10/24;G06V10/25;G06V10/774;G06V10/82;G06V10/764;G06N3/0464;G06N3/0895 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森;曾權 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 擴展性 學習 監督 目標 定位 方法 | ||
1.一種基于特征擴展性學習的弱監督目標定位方法,其特征在于包括如下步驟:
1)對待檢測的圖片進行預處理,然后將預處理后待檢測的圖片及其對應的圖片級別的標簽送入神經網絡;所述神經網絡主要包含三個部分:CNN主干特征提取網絡、最大注意激發模塊MAE和三聯融合擴展模塊TFE;
2)神經網絡對圖片進行處理,在訓練過程中輸出待檢測圖片對應每一個類別的概率數值,在測試過程中輸出待檢測圖片預測的框的坐標、類別、得分;
所述神經網絡對圖片進行處理具體包括如下步驟:
步驟a1,給定帶有圖像級別標簽的數據集集合,將集合劃分為訓練圖片樣本集和測試圖片樣本集;
步驟a2,從訓練圖片樣本集中任意選取圖像I,將該圖像I以及其對應的圖像級別的標簽y輸入神經網絡的主干網絡,其中在輸入神經網絡第2、4、5層應用最大注意激發模塊MAE;
步驟a3,最大注意激發模塊MAE具體如下:假設神經網絡的第2層的輸出特征為X,特征的形狀為C×H×W,C為通道數量、H為特征圖的高度、W為特征圖的寬度;首先在通道數的維度上取平均值,得到
其中,i,j分別表示特征圖的第i行和第j列;接著引入一個超參數ξ=0.5以獲取空間平均注意特征
然后,空間平均注意特征與輸入的特征X相乘得到特征Xa,特征Xa再通過一個卷積核為1×1的卷積層得到特征Ae;最后,使用取最大操作得到MAE模塊的最終輸出特征
MAE模塊的最終輸出特征再作為輸入,進入到神經網絡的下一層;
步驟a4,重復步驟a3,在神經網絡的第4、5層應用MAE模塊;
步驟a5,當得到步驟a4的輸出特征后,使用三聯融合擴展模塊TFE進行特征擴展融合,得到三個分類器的輸出;
所述使用三聯融合擴展模塊TFE進行特征擴展融合為訓練階段和測試階段;所述訓練階段共三個分支,第一、三個分支分別插入一個卷積核為1×3和3×1的卷積層,之后特征經過GAP全局池化層進入分類器Classifier;第二個分支直接為一個GAP進入分類器;三個分類器均由FC層和softamx層組成;所述測試階段是將特征圖從三個分支抽取并進行融合;
步驟a6,將步驟a5所得三個分類器的輸出相加作為網絡的分類結果,然后將圖像級別的標簽和分類結果做交叉熵損失得到網絡的損失;
步驟a7,在測試階段,通過對步驟a5得到的融合特征進行分析,利用CAM中的方法來生成邊界框。
2.如權利要求1所述一種基于特征擴展性學習的弱監督目標定位方法,其特征在于在步驟1)中,所述圖片進行預處理,先對圖片進行標準化處理,再把圖片縮放為256×256大小,最后隨機裁剪為224×224大小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111004064.5/1.html,轉載請聲明來源鉆瓜專利網。





