[發(fā)明專利]基于零樣本學習的細粒度圖像識別方法有效
| 申請?zhí)枺?/td> | 201710470805.6 | 申請日: | 2017-06-20 |
| 公開(公告)號: | CN107480688B | 公開(公告)日: | 2020-06-19 |
| 發(fā)明(設計)人: | 魏杰;武繼剛;孟敏;王勇 | 申請(專利權(quán))人: | 廣東工業(yè)大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 廣東廣信君達律師事務所 44329 | 代理人: | 楊曉松 |
| 地址: | 510062 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 樣本 學習 細粒度 圖像 識別 方法 | ||
本發(fā)明公開了一種基于零樣本學習的圖像識別方法,包括:給定測試的圖像集trainX和語義集trainY;初始化降維矩陣B和D,使得trainX=B*Zx、trainY=D*Zy,其中B,D是根據(jù)字典學習得到的初始結(jié)果,通過奇異值分解將特征矩陣分解為一個方陣,并選擇前若干維作為字典B和D的初始化,Zx和Zy分別為降維后的低維空間中的圖像特征和語義信息;初始化映射關系矩陣W;通過線性回歸,使用隨機梯度下降法調(diào)整W矩陣使得Zx=W*Zy;計算測試集的分類正確精度;根據(jù)分類結(jié)果差值來改進降維矩陣B和D,然后重復前述步驟,直至精度等于或高于目標精度后,輸出結(jié)果。
技術(shù)領域
本發(fā)明涉及圖像識別領域,具體涉及一種基于零樣本學習的細粒度圖像識別方法。
背景技術(shù)
隨著各種電子設備在各個領域的普及,圖像識別技術(shù)在人們的生活中已經(jīng)變得無處不在,為了在越來越多的場景利用這一技術(shù),對其識別的精準度也要求越來越高。然而,隨著近幾年大數(shù)據(jù)和大規(guī)模數(shù)據(jù)量學習的興起,傳統(tǒng)的圖像識別技術(shù)逐漸無法滿足新的圖像識別需求,例如需要識別之前從未見過的類型的圖像,這個問題在當前的海量數(shù)據(jù)中尤為突出,因此在大規(guī)模學習的背景下提高不可見類的識別精度具有重要的意義。為了提高在未見過類型的識別率,人們提出了雙線性模型,通過非圖像的輔助信息資源建立從可見類到不可見類的聯(lián)系。在訓練過程中,將圖像的類別標簽替換為具有語義信息的嵌入向量,并將圖像特征和語義特征映射到同一低維潛層空間,通過支持向量機分類器來完成圖像的分類工作。這種方法減少了訓練好的分類器對原數(shù)據(jù)的過度依賴,實現(xiàn)了分類器的泛化性,完成了知識的遷移過程,最終提高了傳統(tǒng)算法的識別精度。
然而對這類問題,現(xiàn)有的識別技術(shù)只簡單的考慮到了不可見類的識別方法問題,并沒有考慮到需要識別的圖像樣本的自身的特點屬性。在現(xiàn)實環(huán)境中,通常會遇到細粒度的訓練樣本,即每個類別之間的相關性很高,在視覺上也有極高的相似性,通過神經(jīng)網(wǎng)絡提取出圖像的特征后,如果直接使用支持向量機直接將樣本進行分類,由于樣本特征在高維空間中高度重合,無法用之前的方法得到一個大間距分類器將樣本很好的分類,最終導致大量的圖像數(shù)據(jù)被分類器視為噪點并錯誤分類,嚴重影響對不可見類的圖片的識別精度。因此選擇合適的方法對數(shù)據(jù)進行預處理和合適的分類器對于提升不可見類的識別精度至關重要。
發(fā)明內(nèi)容
為了在大規(guī)模數(shù)據(jù)環(huán)境中提升細粒度圖像識別的精度,尤其是識別之前從未見過類別的圖像中的物體,如何在較快的時間內(nèi)識別并提高細粒度識別的精度引起了廣泛的關注。本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種針對在zero-shot環(huán)境下的細粒度圖像識別的精度不高的問題。本發(fā)明提供一種有效的泛化能力強的圖像識別方法,在部分數(shù)據(jù)類別不可見的情況下,提高在細粒度圖像數(shù)據(jù)的識別精度。
本發(fā)明出于分類的有效性考慮可采用如下方式進行設計。首先,將圖像和語義信息從實體中提出特征,得到了圖像和語義信息在特征空間的表達,對兩個特征空間分別進行字典學習映射到低維子空間,然后,通過線性回歸的方式,學習得到圖像和語義信息在低維子空間的映射關系的矩陣,將計算所得的誤差反饋給字典學習過程,用來改進特征空間到低維子空間的映射關系,從而盡量減少映射到低維子空間這一過程中所損失的特征表達,使得低維空間能更好的表達高維空間的信息。
一種基于零樣本學習的圖像識別方法,其步驟包括:
S1、給定測試的圖像集trainX和語義集trainY;
S2、初始化降維矩陣B和D,使得trainX=B*Zx、trainY=D*Zy,其中所述步驟S2中的初始化降維矩陣B,D是根據(jù)字典學習得到的初始結(jié)果,通過奇異值分解將特征矩陣分解為一個方陣,并選擇前若干維作為字典B和D的初始化,Zx和Zy分別為降維后的低維空間中的圖像特征和語義信息;
S3、初始化映射關系矩陣W;
S4、通過線性回歸,使用隨機梯度下降法調(diào)整W矩陣使得Zx=W*Zy;
S5、計算測試集的分類正確精度;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東工業(yè)大學,未經(jīng)廣東工業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710470805.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





