[發(fā)明專利]一種標(biāo)記與語義自編碼融合的零樣本圖像分類方法在審
| 申請?zhí)枺?/td> | 202010501150.6 | 申請日: | 2020-06-04 |
| 公開(公告)號: | CN111914872A | 公開(公告)日: | 2020-11-10 |
| 發(fā)明(設(shè)計)人: | 藺廣逢;范引娣;繆亞林;陳萬軍;張二虎 | 申請(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 韓玙 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 標(biāo)記 語義 編碼 融合 樣本 圖像 分類 方法 | ||
本發(fā)明公開的一種標(biāo)記與語義自編碼融合的零樣本圖像分類方法,具體按照以下步驟實施:圖像到語義的自編碼映射求解,獲得圖像到語義的映射矩陣;圖像到標(biāo)記的自編碼映射求解,獲得圖像到標(biāo)記的映射矩陣;根據(jù)圖像到語義的映射矩陣、圖像到標(biāo)記的映射矩陣求解圖像標(biāo)記融合系數(shù);根據(jù)圖像標(biāo)記融合系數(shù)對零樣本圖像標(biāo)記估計,根據(jù)估計結(jié)果進(jìn)行分類標(biāo)記。不僅考慮語義的自編碼映射,而且考慮標(biāo)記的自編碼映射。將各個信息域(語義和標(biāo)記)的映射變換進(jìn)行標(biāo)記融合,進(jìn)一步優(yōu)化以上多重映射關(guān)系,能夠更加準(zhǔn)確的進(jìn)行零樣本圖像分類和識別。
技術(shù)領(lǐng)域
本發(fā)明屬于零樣本圖像分類技術(shù)領(lǐng)域,具體涉及一種標(biāo)記與語義自編碼融合的零樣本圖像分類方法。
背景技術(shù)
深度學(xué)習(xí)在傳統(tǒng)的訓(xùn)練測試模式下對圖像目標(biāo)識別取得了突破性進(jìn)展。在某些限定條件下,依靠對大規(guī)模的標(biāo)記數(shù)據(jù)的學(xué)習(xí),一定程度已經(jīng)超越人的判別能力。在實際情形中,由于物種本身稀少或標(biāo)注樣本費(fèi)時費(fèi)力,使得獲取大量的標(biāo)記樣本的成本和代價較大。甚至很多時候沒有任何關(guān)于待識別種類的圖像樣本,這就是零樣圖像識別問題。
在零樣本分類問題中,已知的信息:可見類別的圖像樣本;所有類別(可見和未可見類別)的語義信息。不可知的信息:未可見類別和其圖像樣本。本發(fā)明有別于傳統(tǒng)方法僅考慮不同信息域的單個映射,而是通過圖像和語義映射關(guān)系、圖像和類別映射關(guān)系與各自結(jié)構(gòu)的融合,對未可見類圖像樣本進(jìn)行分類。
為了建模圖像、語義和標(biāo)記的動態(tài)交互關(guān)系,當(dāng)前方法思路是利用線性或非線性將視覺映射到語義、或?qū)⒄Z義映射到視覺、或視覺語義映射到共同空間中,以此建立相關(guān)性,獲得為可見類別的識別。但是視覺、語義和標(biāo)記的分布結(jié)構(gòu)和描述方式造成不同域信息的偏移,而現(xiàn)有方法未能考慮對視覺、語義和標(biāo)記的多重映射融合識別未可見類圖像樣本。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種標(biāo)記與語義自編碼融合的零樣本圖像分類方法,考慮標(biāo)記的自編碼映射,將各個信息域的映射變換進(jìn)行標(biāo)記融合,進(jìn)一步優(yōu)化多重映射關(guān)系,提高零樣本圖像分類的準(zhǔn)確性。
本發(fā)明所采用的技術(shù)方案是,一種標(biāo)記與語義自編碼融合的零樣本圖像分類方法,具體按照以下步驟實施:
步驟1、圖像到語義的自編碼映射求解,獲得圖像到語義的映射矩陣;
步驟2、圖像到標(biāo)記的自編碼映射求解,獲得圖像到標(biāo)記的映射矩陣;
步驟3、根據(jù)圖像到語義的映射矩陣、圖像到標(biāo)記的映射矩陣求解圖像標(biāo)記融合系數(shù);
步驟4、根據(jù)圖像標(biāo)記融合系數(shù)對零樣本圖像標(biāo)記估計,根據(jù)估計結(jié)果進(jìn)行分類標(biāo)記。
本發(fā)明的特點還在于:
步驟1具體過程為:
步驟1.1、取n個圖像樣本,對n個圖像樣本提取可見類別的圖像特征矩陣和可見類別的語義嵌入特征矩陣
步驟1.2、根據(jù)單層的線性自編碼器原理可得:
其中,d1為圖像特征維度,d2為語義嵌入特征維度,λ1為折中參數(shù)取為1,為圖像到語義的映射矩陣;
步驟1.3、根據(jù)式(1)進(jìn)而可得:
BA1+A1C=D (2)
其中,B=SST,C=λ1XXT,D=(1+λ1)SXT,通過matlab中的函數(shù)sylvester優(yōu)化求解圖像到語義的映射矩陣A1。
步驟2具體過程為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010501150.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





