[發明專利]基于隱空間編碼的零樣本學習分類方法在審
| 申請號: | 201711064082.6 | 申請日: | 2017-11-02 |
| 公開(公告)號: | CN107944468A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 于云龍;冀中 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務所12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 空間 編碼 樣本 學習 分類 方法 | ||
技術領域
本發明涉及一種計算機視覺領域的多模態學習方法。特別是涉及一種基于特征認知的編碼方法,可以應用于跨模態信息檢索,零樣本學習等領域。具體講,涉及基于隱空間編碼的零樣本學習分類方法。
背景技術
盡管深度卷積神經網絡的發展極大地提高了物體識別的性能,但是當前大部分分類模型都是基于監督學習的模型,需要人力去標注大量的訓練樣本。另外,當新的類別加入分類系統時,分類模型就需要重新訓練。這些問題嚴重的影響了傳統分類模型的可擴展性。
為了解決傳統分類模型中的缺陷,零樣本學習能夠識別出在訓練階段未見過類別的樣本,受到了研究者們的關注。零樣本學習主要是尋找一個類別語義嵌入空間將可見類別的信息轉移到未見類別中。當前主要的語義嵌入空間有兩種:一種是人為定義的類別屬性空間,是有預先定義好的一系列的屬性名稱張成;另一種是文本向量空間,是利用無監督自然語言處理的技術從大規模的語料庫中提取的。得到類別語義空間后,可見類別和未見類別的之間關系就可以利用不同類別在類別語義空間中的距離度量獲得,如歐式距離,余弦距離等。因為每一個類別都與類別語義空間中唯一的向量相對應,因此,當前大多數算法主要是利用可見類別的樣本學習一個視覺模態和類別語義模態之間的映射函數,然后利用學習到的映射函數得到測試樣本和未見類別的類別語義特征之間的關系,從而實現未見類別樣本的識別。
大多數模型主要學習一個具體的映射函數聯系不同模態之間的關系。然而,不同模態之間的關系是復雜的,甚至是不可描述的,學習具體的映射函數并不能很好地進行建模。
發明內容
為克服現有技術的不足,本發明旨在提出一種性能穩定,計算效率高且適用于多模態學習的特征認知的編碼方法,并將所提的方法應用于零樣本學習中。為此,本發明采用的技術方案是,基于隱空間編碼的零樣本學習分類方法,對于任一模態,利用矩陣分解的方法將此模態的輸入特征矩陣分解為一個隱層碼矩陣和一個編碼矩陣,并利用隱層碼矩陣和一個解碼矩陣重構原始的輸入特征矩陣,其中編碼矩陣和解碼矩陣是互為轉置的關系,利用矩陣分解的方法學習一個編碼矩陣來表征不同模態特征之間共有的語義信息,得到不同模態之間的語義關聯,進而實現不同模態樣本的分類。
直接利用矩陣分解的方法將視覺特征矩陣分解為編碼矩陣和線性解碼矩陣即:X~DC,其中p為視覺空間的維度,d為編碼矩陣的維度,n為訓練樣本的個數,具體過程為:
其中|| ||F表示矩陣的弗羅貝尼烏斯范數,λ表示平衡參數,給定編碼矩陣C,最優的解碼矩陣D通過求解以下目標函數獲得:
CTCD+λDXTX=(1+λ)CTX(2)
編碼矩陣C是不相關的,即:
CTC=I(3)
其中I表示單位矩陣,將(3)代入(2)中,得到解碼矩陣D的閉式表達式:
D=(1+λ)CTX(I+λDXTX)-1(4)
將(4)代入(1)中,目標函數(1)表達為:
minTr[XTX+λCTC]-(1+λ)Tr[CTX(I+λXTX)-1XTC](5)
其中Tr表示矩陣的跡;
考慮到Tr[XTX+λCTC]是常數,因此目標函數(5)等價于:
maxTr[CTX(I+λXTX)-1XTC]
s.t.CTC=I(6)
學習一種線性或者非線性的關系使得語義特征和編碼特征之間的相關性最大,其目標函數為:
其中W表示線性映射矩陣,考慮到CTC=I,因此目標函數轉換為:
maxATWC s.t.ATWWTA=I(8)
固定編碼矩陣C,線性映射矩陣W的最優值為:
將(9)代入到(7)中,目標函數轉換為:
其中△=A(ATA)-1AT,因此步驟2)的目標函數等價為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711064082.6/2.html,轉載請聲明來源鉆瓜專利網。





