[發明專利]一種基于語義特征增強的細粒度圖像分類方法有效
| 申請號: | 202011501882.1 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112488132B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 楊陽;關祥 | 申請(專利權)人: | 貴州大學 |
| 主分類號: | G06V10/44 | 分類號: | G06V10/44;G06V10/74;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 55002*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 特征 增強 細粒度 圖像 分類 方法 | ||
本發明公開了一種基于語義特征增強的細粒度圖像分類方法,創造性地將文本引入圖像分類模型訓練過程,通過讓文本特征和圖像特征共享分類器的方式提升模型對語義信息的決策能力。同時,在訓練過程中,進一步地將兩種門控語義特征增強、語義邊界特征增強應用到特征提取階段和特征分類階段。這樣利用文本的語義信息對圖像特征進行約束,從而提升圖像分類模型對小樣本數據的泛化能力,不再依賴于大規模高質量標注數據集,避免高額數據成本。
技術領域
本發明屬于細粒度圖像分類技術領域,更為具體地講,涉及一種基于語義特征增強的細粒度圖像分類方法。
背景技術
細粒度圖像分類問題是對大類下的子類進行識別。細粒度圖像分類任務相對通用圖像(General/Generic Images)分類任務的區別和難點在于其圖像所屬類別的粒度更為精細。通用圖像的分類任務訴求是將“袋鼠”和“狗”這兩個物體大類分開,無論從樣貌、形態等方面,二者還是很容易被區分的;而細粒度圖像的分類任務則要求對“狗”該類類別下細粒度的子類,即分別為“哈士奇”和“愛斯基摩犬”的圖像分辨開來。正因同類別物種的不同子類往往僅在耳朵形狀、毛色等細微處存在差異,可謂“差之毫厘,謬以千里”。不止對計算機,對普通人來說,細粒度圖像任務的難度和挑戰無疑也更為巨大。
細粒度圖像分類無論在工業界還是學術界都有著廣泛的研究需求與應用場景。但是,由于分類的粒度很小,細粒度圖像分類非常困難,在某些類別上甚至專家都難以區分,導致收集和整理高質量的標注數據集伴隨著高額的成本。現有的方法都依賴于海量高質量的標注數據,高額數據成本使得細粒度圖像分類任務在眾多領域無法得到應用。
發明內容
本發明的目的在于克服現有技術的不足,提供一種基于語義特征增強的細粒度圖像分類方法,不依賴于大規模高質量標注數據集,避免高額數據成本。
為實現上述發明目的,本發明基于語義特征增強的細粒度圖像分類方法,其特征在于,包括以下步驟:
(1)、構建圖像特征提取模型(Image Encoder)
采用殘差網絡(Residual Network)(圖像特征提取模型)提取圖像的特征,得到特征圖X,特征圖X由圖像各個區域的維度為c的圖像特征xij構成,其中,i表示寬度方向的位置,i=1,2,…,w,j表示高度方向的位置,j=1,2,…,h;w、h分別為特征圖X的寬度和高度;
(2)、構建文本特征提取模型(Text Encoder)
采用卷積神經網絡(CNN)作為文本特征提取模型提取文本的特征,得到維度為c的文本特征t;
(3)、構建共享分類器(Classifier)
構建FBPGMP(FBP,Factorized Bilinear Pooling,因式雙線性池化;GMP,GlobalMax Pooling,全局最大池化)網絡、FBP網絡以及一個共享FC(全連接層)組成構建共享分類器;
(4)、訓練細粒度圖像分類模型
圖像特征提取模型、文本特征提取模型以及共享分類器構成細粒度圖像分類模型;
構建訓練數據集,其每條數據包括一副圖像、對應的對圖像進行描述的文本以及圖像類別標簽;
4.1)、圖像、文本特征提取
在訓練過程中,從訓練數據集中取出一條數據,將圖像及其對應的對圖像進行描述的文本,分別送入圖像特征提取模型以及文本特征提取模型,得到圖像特征xij以及文本特征t;
4.2)、門控語義特征增強
對于圖像特征xij,門控語義特征增強為新的圖像特征x′ij:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州大學,未經貴州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011501882.1/2.html,轉載請聲明來源鉆瓜專利網。





