[發明專利]基于多層語義監督式注意力模型的細粒度零樣本分類方法在審
| 申請號: | 201811115665.1 | 申請日: | 2018-09-25 |
| 公開(公告)號: | CN109447115A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 冀中;于雪潔 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 杜文茹 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 細粒度 語義 局部視覺 視覺特征 語義特征 多層 注意力模型 圖像 監督 樣本分類 權重 卷積神經網絡 分類結果 輸出圖像 損失函數 特征結合 網絡輸出 文本描述 對齊 分類 映射 賦予 嵌入 注意力 全局 | ||
1.一種基于多層語義監督式注意力模型的細粒度零樣本分類方法,其特征在于,首先,利用卷積神經網絡提取在細粒度圖像中所選定部位的局部視覺特征,利用類別的文本描述信息作為類別語義特征對所述細粒度圖像的局部視覺特征的分類進行監督,為細粒度圖像的局部視覺特征逐步賦予權重,得到語義監督注意力模型,其中,與語義信息相關性越高的局部視覺特征,對應的權重就越大;用類別語義特征引導映射到隱空間局部視覺特征,得到多層語義監督注意力模型的損失函數;將細粒度圖像的全局視覺特征與經過多層語義監督注意力模型賦予權重后的局部視覺特征結合,作為圖像的新的視覺特征;最后將類別語義特征嵌入到新的視覺特征空間,將多層語義監督注意力網絡輸出的視覺特征與語義特征進行對齊,利用softmax函數進行分類,得到圖像分類。
2.根據權利要求1所述的基于多層語義監督式注意力模型的細粒度零樣本分類方法,其特征在于,具體包括如下步驟:
1)獲取來自細粒度圖像的n個可見類別的N張圖像的局部視覺特征VI,類別語義特征向量s以及真實標簽矩陣Y;
2)利用公式f(VI)=h(WI,AVI)將局部視覺特征VI映射到隱空間;
式中:代表圖像的局部視覺特征,其中p為局部視覺特征的維度,m為局部視覺特征的個數,vi為對應的第i個區域的局部視覺特征向量;h為非線性函數;WI,A∈Rd×p為從局部視覺特征空間到隱空間的映射矩陣,d為隱空間的維度;
3)將局部視覺特征VI壓縮為視覺特征向量vG,利用公式g(vG)=h(WG,Ah(WG,SvG))將視覺特征向量vG映射到隱空間;
式中:WG,A∈Rd×q為語義空間到隱空間的映射矩陣;WG,S∈Rq×p為從視覺特征空間到語義空間的映射矩陣,q為語義空間的維度;
4)利用公式將f(VI)和g(vG)進行特征融合,得到融合后的特征向量hA;
5)利用公式pI=softmax(WphA+bp)計算出圖像每個局部區域的注意力權重
式中:Wp∈Rd為softmax函數的權重向量;bp為常數偏置項;pi為每個局部視覺特征對應的注意力權重;
6)利用公式ui=vi+pivi計算出單層語義監督注意力網絡輸出的視覺特征向量ui,進而得到m個視覺區域的局部特征的集合以及單層語義監督注意力網絡輸出的壓縮后的視覺特征向量uG;
7)將局部特征的集合UI和壓縮后的視覺特征向量uG分別代替圖像的局部視覺特征VI和視覺特征向量vG,重復步驟2)~步驟6)得到多層語義監督注意力網絡輸出的視覺特征向量ui″;
8)為實現以語義信息為監督,引導注意力模型對細粒度圖像的局部視覺特征進行選擇,將語義信息嵌入到兩層注意力網絡中,分別得到損失函數Loss1和Loss2:
Loss1=||h(WG,SvG)-s||2
Loss2=||h(WG,SuG)-s||2;
9)將每張圖像m個區域的多層語義監督注意力網絡輸出的視覺特征向量ui″依次串聯起來得到圖像的全局視覺特征向量uG′,進而得到N張可見類別圖像經過多層語義監督注意力網絡后輸出的全局視覺特征向量的集合UG={uG′};
10)利用公式vs=h(WEs+bE)將類別語義特征向量s嵌入到視覺特征空間得到vs,進而得到n個可見類別的語義特征向量嵌入到視覺特征空間的集合Vs={vs};
式中:WE∈Rl×q為嵌入矩陣,bE∈Rl為嵌入偏置,其中l=m×p,為全局特征向量的長度;
11)使視覺特征和語義特征在視覺特征空間進行對齊,得到損失函數Loss3:
Loss3=||vs-uG′||2
12)利用公式Pc=softmax(UGVsT)計算每張可見類別圖像屬于每個可見類別的預測概率Pc;
13)利用公式得到分類損失函數Lossc;
14)整個網絡的損失函數為:
min Loss=Loss1+Loss2+Loss3+Lossc
在訓練過程中通過多次迭代,使網絡的損失函數不斷下降,最終達到收斂,訓練完成。
15)在測試階段,輸入來自t個未見類別的測試圖像的局部視覺特征VU,未見類別的測試圖像的視覺特征向量vT,得到多層語義監督注意力網絡輸出的視覺特征向量ut;將未見類別的類別語義特征ST利用視覺語義對齊網絡嵌入到視覺特征空間得到語義嵌入特征VT;根據下式計算多層語義監督注意力網絡輸出的視覺特征向量ut與語義嵌入特征VT的距離D,距離最小的類別即為測試圖像的預測類別:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811115665.1/1.html,轉載請聲明來源鉆瓜專利網。





