[發(fā)明專利]一種基于自編碼器和tSNE降維的圖片檢索方法在審
| 申請?zhí)枺?/td> | 201910932207.5 | 申請日: | 2019-09-29 |
| 公開(公告)號: | CN110851642A | 公開(公告)日: | 2020-02-28 |
| 發(fā)明(設(shè)計)人: | 申富饒;趙加成;于僡;趙健 | 申請(專利權(quán))人: | 南京大學(xué);南京意智趣電子科技有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06K9/46;G06K9/62 |
| 代理公司: | 江蘇圣典律師事務(wù)所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 210023 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 編碼器 tsne 圖片 檢索 方法 | ||
本發(fā)明提供了一種基于自編碼器和tSNE降維的圖片檢索方法,包括:步驟1,首先讀入待檢索的圖像;步驟2:輸入圖像到自編碼器中,并運(yùn)行網(wǎng)絡(luò);步驟3:提取得到自編碼器的中間層結(jié)果,也即是圖像的特征;步驟4:遍歷提取得到數(shù)據(jù)庫中所有圖像的特征;步驟5:將這些特征與待檢索圖像的特征經(jīng)過tSNE降維之后,兩兩計算它們之間的余弦相似度值;步驟6:得到待檢索圖像與數(shù)據(jù)庫中所有圖像的相似度,取出相似度最大的數(shù)據(jù)庫圖像作為圖片檢索的結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于自編碼器和tSNE(t分布隨機(jī)鄰域嵌入)降維的圖片檢索方法。
背景技術(shù)
基于內(nèi)容的圖像檢索任務(wù)(CBIR,Content-based image retrieval)長期以來一直是計算機(jī)視覺領(lǐng)域重要的研究課題,自20世紀(jì)90年代早期,研究人員先后采用了圖像的全局特征,局部特征,卷積特征的方法對CBIR任務(wù)進(jìn)行研究和探索,并取得了卓越的成果。自2003年開始,由于SIFT特征在圖像尺度、方向變化問題中的優(yōu)異表現(xiàn),十多年來基于局部描述算子(如SIFT描述算子)的圖像檢索方法一直被廣泛研究。最近,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像表示方法吸引了社區(qū)越來越多的關(guān)注,同時這種方法也展現(xiàn)出了令人贊嘆的性能。
目前,圖像檢索分為三類,基于混合方法的,基于預(yù)訓(xùn)練模型的,基于微調(diào)模型的,總的來說檢索的方法往更輕量級,更簡單的方法過度。SIFT的方法逐漸被CNN網(wǎng)絡(luò)取代,但是在某些方面,又可以作為CNN特征的補(bǔ)充。
第一,混合方法可被視為從SIFT到基于CNN的方法的過渡方法,除了將CNN特征提取為局部描述符之外,它在所有方面都類似于基于SIFT的方法。由于在圖像塊特征提取期間需要多次訪問網(wǎng)絡(luò),因此特征提取步驟的效率可能會受到影響。
第二,單向CNN方法傾向于將SIFT和混合方法中的各個步驟結(jié)合起來?!邦A(yù)訓(xùn)練單向網(wǎng)絡(luò)”一類方法整合了特征檢測和描述的步驟;在“微調(diào)單向網(wǎng)絡(luò)”中,圖像級描述符通常是在端到端模式下提取的,因此不需要單獨(dú)的編碼過程。在某些方法中,集成了類似“PCA”層以減少區(qū)分維數(shù),進(jìn)一步完善了端到端的特征學(xué)習(xí)。
第三,出于效率上的考慮,特征編碼的固定長度表示方法越來越流行。它可以通過聚集局部描述符(SIFT或CNN)、直接匯或端到端特征計算的方法來獲得。通常,諸如PCA的降維方法可以在固定長度的特征表達(dá)中使用,ANN搜索方法(如PQ或哈希)可用于快速檢索。
傳統(tǒng)人工設(shè)計的圖片特征方法雖然計算速度高,但不適應(yīng)復(fù)雜圖像,如在具有多重背景的圖像下就不太適用;深度學(xué)習(xí)結(jié)合傳統(tǒng)手工特征的方法雖然較前者效果有所提高,但整個過程較為復(fù)雜,流程比較冗余,精度上也未能達(dá)到一個理想的高度;而現(xiàn)在主流的特征編碼的固定長度表示方法利用諸如PCA的降維方法可以在固定長度的特征表達(dá)中使用,同時結(jié)合ANN搜索方法可以實(shí)現(xiàn)快速檢索,但這是以犧牲精度為代價,還需要進(jìn)一步的提升。
參考文獻(xiàn):J.Sivic and A.Zisserman,“Video google:A text retrievalapproach to object matching in videos,”in ICCV,2003。
發(fā)明內(nèi)容
發(fā)明目的:為了解決現(xiàn)有技術(shù)的問題,本發(fā)明公開了一種基于自編碼器和tSNE(t分布隨機(jī)鄰域嵌入)降維的圖片檢索方法,該方法可以在保證不大幅度圖片檢索的效果下,明顯提高圖片檢索的效率,并且在該方法在硬件環(huán)境不理想的情況下也能保證快速地運(yùn)行。該方法可以使用在任何圖片檢索的場景,包括如下步驟:
步驟1:使用ImageNet數(shù)據(jù)集生成訓(xùn)練集和驗(yàn)證集,驗(yàn)證集數(shù)據(jù)構(gòu)成數(shù)據(jù)庫的圖片;
步驟2:使用步驟1生成的訓(xùn)練集和驗(yàn)證集訓(xùn)練自編碼器神經(jīng)網(wǎng)絡(luò);
步驟3:讀入待檢索的圖片數(shù)據(jù);
步驟4:將待檢索的圖片數(shù)據(jù)輸入到自編碼器神經(jīng)網(wǎng)絡(luò)當(dāng)中,并進(jìn)行前向傳播;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué);南京意智趣電子科技有限公司,未經(jīng)南京大學(xué);南京意智趣電子科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910932207.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





