[發明專利]基于多尺度反復注意力機制的細粒度圖像分類方法有效
| 申請號: | 202010007816.2 | 申請日: | 2020-01-05 |
| 公開(公告)號: | CN111191737B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 何凱;馮旭;高圣楠;馬希濤 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06V10/46 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 尺度 反復 注意力 機制 細粒度 圖像 分類 方法 | ||
本發明公開了一種基于多尺度反復注意力機制的細粒度圖像分類方法,所述方法包括:對訓練數據集進行隨機裁剪,水平翻轉來增強數據集,防止過擬合;在ResNet50模型的基礎上以多尺度的方式,引入反復注意力機制;輸入訓練樣本,將訓練樣本統一輸入大小為448*448,使用多尺度反復注意力模型作為特征提取器,將不同尺度得到的特征矩陣進行拼接,送入全連接層和softmax進行分類訓練;保存最終的訓練模型,在測試集上進行測試,得到最終的準確率。本發明提高了細粒度圖像的分類準確率。
技術領域
本發明涉及圖像分類任務中的細粒度圖像分類領域,細粒度圖像分類是對某一類別下的圖像子類進行精確劃分。細粒度圖像分類以其“特征相似,姿態各異,背景干擾”等特點,一直是計算機視覺和模式識別領域的研究熱點和難點,具有重要的研究價值。尤其涉及一種基于多尺度反復注意力機制的細粒度圖像分類方法。
背景技術
鑒于傳統算法對細粒度圖像分類準確率低,模型泛化能力差,基于深度學習實現細粒度圖像分類逐漸成為當前的主流,主要可分為:強監督算法和弱監督算法2大類。其中,強監督算法需要基于人工標注特征完成,利用人工標注好的信息對待分類目標的判別性區域進行精確定位,可以大大減少運算時間,但是由于強監督算法成本較高,對顯著性特征提取能力不足,不能滿足實際工程的需要,與之相比,弱監督算法生成的特征矩陣具有更好的表現力。
細粒度圖像分類的難點在于:訓練樣本的分類數目較多,但每個類別下的樣本數目太少,容易導致過擬合;網絡模型復雜,參數量較多,對計算機要求較高;同一類別下的樣本受光照,姿態等影響差異較大,使得網絡難以學習到判別性特征。目前,細粒度圖像分類的問題主要體現在三個方面:
1)如何使網絡精確地提取顯著性區域特征;
2)如何有效去除無關背景的干擾;
3)如何有效防止過擬合現象。
發明內容
本發明提供了一種基于多尺度反復注意力機制的細粒度圖像分類方法,本發明提高了細粒度圖像的分類準確率,詳見下文描述:
一種基于多尺度反復注意力機制的細粒度圖像分類方法,所述方法包括:
對訓練數據集進行隨機裁剪,水平翻轉來增強數據集,防止過擬合;
在ResNet50模型的基礎上以多尺度的方式,引入反復注意力機制;
輸入訓練樣本,將訓練樣本統一輸入大小為448*448,使用多尺度反復注意力模型作為特征提取器,將不同尺度得到的特征矩陣進行拼接,送入全連接層和softmax進行分類訓練;
保存最終的訓練模型,在測試集上進行測試,得到最終的準確率。
進一步地,所述反復注意力機制具體為:
先將某一層級的特征矩陣X,并行經過通道和空間注意力支路,分別得到通道和空間權重矩陣;再將特征矩陣X與通道權重矩陣相乘,對輸入圖像的不同特征圖進行權重賦值;
再與空間權重矩陣相乘,以去除無關背景的干擾;最后以殘差的方式,將注意力結果與輸入特征X結合。
其中,所述反復注意力機制的通道注意力支路具體為:
先將原有的特征圖進行空間壓縮,將其從空間(B,H,W,C)映射到空間(B,1,1,C)當中,以去除空間位置信息干擾;
分別采用全局平均池化和全局最大池化,將二者的池化結果進行拼接,得到維度為(B,1,1,2C)的特征圖,由于原始輸入特征圖的通道數為C,需要經過兩個1×1大小的卷積核,對通道數進行降維,以進一步提取通道特征。
進一步地,所述反復注意力機制的空間注意力支路包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010007816.2/2.html,轉載請聲明來源鉆瓜專利網。





