[發明專利]一種基于視覺自注意力機制的弱監督細粒度圖像識別方法有效
| 申請號: | 202010311761.4 | 申請日: | 2020-04-20 |
| 公開(公告)號: | CN111539469B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 李春國;劉楊;楊哲;楊綠溪;徐琴珍 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06V10/762 | 分類號: | G06V10/762;G06V10/764;G06V10/82;G06V10/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 王安琪 |
| 地址: | 211189 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺 注意力 機制 監督 細粒度 圖像 識別 方法 | ||
1.一種基于視覺自注意力機制的弱監督細粒度圖像識別方法,其特征在于,包括如下步驟:
(1)在預處理階段,將任意尺寸的原始圖像縮放至600×600像素,在此基礎上以圖像中心為原點裁剪出448×448像素區域,按照均值[0.485,0.456,0.406]和標準差[0.229,0.224,0.225]對裁剪區域進行規范化處理,而后將歸一化圖像輸入基于視覺自注意力機制的細粒度識別模型;
(2)輸入圖像經共享卷積神經網絡輸出14×14×2048維特征張量,student-model借助目標檢測領域常用的區域建議網絡RPN的錨框思想,將步長為1、2、2,輸出通道數為128的三個3×3卷積層序貫連接至共享基礎網絡,對特征進行降維,此時三個卷積層輸出降維特征圖分辨率依次是14×14、7×7和4×4;針對單個降維特征圖中每一像素點,student-model將其映射至448×448像素的輸入圖像產生不同尺度和比例的k種規格的錨框,將錨框對應的共享卷積特征信息輸入分類全連接層獲得k個得分,該數值表示錨框內物體屬于前景的概率,由于細粒度數據集中每幅圖像僅包含單個目標,因此這一概率值能夠反映此區域內語義信息量;
(3)非極大值抑制算法Hard-NMS將student-model創建的錨框{R′1,R′2,…,R′P}按照分類全連接層輸出的得分{s′1,s′2,…,s′P},即信息量降序排列,保留其中分值最高的錨框,并且將與該錨框交并比,即Intersection over Union,IOU大于設定閾值的所有錨框分值強制歸零,即
式中,R′i表示第i個錨框,s′i表示錨框R′i的信息量,M表示當前信息量最高的錨框,Nt表示非極大值抑制算法Hard-NMS的閾值,重復步驟(3)直至剩余錨框數量為N,N表示用戶定義的候選區域數目;
(4)經過非極大值抑制算法初步篩選后,student-model剩余N個候選區域{R1,R2,…,RN},此時s1≥s2≥…sN,其中si表示候選區域Ri對應的信息量;
(5)teacher-model將候選區域{R1,R2,…,RN}的卷積特征并行輸入多個獨立的全連接層,結合softmax函數計算對應區域屬于真實目標類別的概率,獲得置信度{c1,c2,…,cN};與此同時,設定細粒度圖像中候選區域類別標簽與所在圖像級標簽相同,利用交叉熵損失函數計算目標真實類別與teacher-model預測結果之間的誤差,即
式中,Ltch表示teacher-model的損失函數,i∈{1,2,…,N}表示候選區域索引,ci表示候選區域Ri屬于真實目標類別的概率,cI表示輸入圖像I屬于真實目標類別的概率,公式中第二項-log(cI)表示完整輸入圖像的交叉熵,能夠幫助teacher-model從全局角度把握預測方向;
(6)student-model與teacher-model經Teacher-Student循環反饋機制構成自注意力區域推薦網絡,Teacher-Student循環反饋機制利用Pairwise Approach排序學習算法將候選區域Ri和Rj在student-model中的信息量與teacher-model中的置信度構建文檔對{(si,sj),(ci,cj)};如果置信度ci>cj,信息量滿足si>sj,則認為該文檔對構成正確的偏序關系;反之,如果ci>cj,而si<sj,則認為偏序關系錯誤;Pairwise Approach排序學習算法通過最大邊界損失函數對偏序關系錯誤的文檔對進行懲罰,即
式中,Lrank表示Teacher-Student循環反饋機制的損失函數,margin表示邊界閾值;
(7)student-model根據Teacher-Student循環反饋機制的損失函數優化卷積層和分類全連接層參數,重復步驟(2)~(6)直至候選區域{R1,R2,…,RN}的信息量{s1,s2,…,sN}和置信度{c1,c2,…,cN}排列順序一致,此時從候選區域中選取信息量最高的K個區域進行推薦,這K個推薦區域{R1,R2,…,RK}即為注意力區域;
(8)將注意力區域{R1,R2,…,RK}和輸入圖像I經共享卷積神經網絡輸出的特征信息通過特征級聯方式融合,輸入classification-model判斷圖像類別,利用交叉熵損失函數衡量預測類別與真實目標類別之間的差異,即
Lcls=-logc(I,R1,…,RK)
式中,Lcls表示classification-model的損失函數,c(I,R1,R2,…,RK)表示聯合輸入圖像和注意力區域的特征信息計算出的圖像屬于真實目標類別的概率;
(9)在teacher-model、Teacher-Student循環反饋機制和classification-model多任務學習過程中,為提升每個子任務的學習效率和預測速度,并增強模型泛化能力,聯合全部子任務的損失函數進行優化,則總體損失函數Ltotal為
Ltotal=w1Ltch+w2Lrank+w3Lcls
式中,w1、w2和w3為權重超參數,分別表示teacher-model損失函數Ltch、Teacher-Student循環反饋機制排序損失函數Lrank和classification-model分類損失函數Lcls在總體損失函數Ltotal中所占比例;
(10)動態權重分配機制根據每個子任務自身損失變化率自適應地調整對應的權重系數,即
式中,γk(·)∈(0,1)表示第k個子任務損失函數的相對變化率,初始化γk(0)=γk(1)=1,Lk表示第k個子任務的損失函數,t表示訓練迭代次數epoch,結合softmax函數計算相對權重系數
式中,wk表示第k個子任務的相對權重,B=3表示總體任務數目,T為超參數,用于設置各權重系數的相似程度,T值越大表明各子任務的權重系數差距越小;
(11)根據總體損失函數利用動量隨機梯度下降算法對整體模型進行端到端的訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010311761.4/1.html,轉載請聲明來源鉆瓜專利網。





