[發(fā)明專利]一種基于自適應(yīng)位分配哈希算法的大規(guī)模圖像庫檢索方法有效
| 申請?zhí)枺?/td> | 201410305838.1 | 申請日: | 2014-06-30 |
| 公開(公告)號: | CN104021234B | 公開(公告)日: | 2017-04-19 |
| 發(fā)明(設(shè)計(jì))人: | 郭勤振;曾智;張樹武 | 申請(專利權(quán))人: | 中國科學(xué)院自動(dòng)化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自適應(yīng) 分配 算法 大規(guī)模 圖像 檢索 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于圖像檢索技術(shù)領(lǐng)域,涉及一種基于內(nèi)容的圖像檢索方法,尤其涉及一種基于自適應(yīng)位分配哈希算法的大規(guī)模圖像庫檢索方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)上圖片數(shù)據(jù)的日益增多,如何快速、準(zhǔn)確地為用戶提供所需要的圖片資源顯得越來越重要。基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)可以比較好地解決這個(gè)問題,因此受到了許多研究者的關(guān)注。現(xiàn)有的檢索方法通過提取圖像的底層特征對圖像內(nèi)容進(jìn)行描述,然后利用特征比對判斷是否為相似圖像。因此,CBIR主要包括兩部分的核心研究內(nèi)容,一是有效的圖像特征表述,二是高效檢索算法。本發(fā)明主要解決高效檢索算法問題。
高效的檢索算法主要包括:基于樹的檢索算法和基于哈希的檢索算法。基于樹的檢索算法利用超平面遞歸劃分整個(gè)數(shù)據(jù)空間,在數(shù)據(jù)比較低維的情況下效果很好,但是當(dāng)數(shù)據(jù)維度比較高的時(shí)候,基于樹的檢索算法會(huì)退化成窮盡搜索。基于哈希的檢索算法的主要思想是將原始數(shù)據(jù)映射成漢明空間中的二值串(binary string),數(shù)據(jù)之間的相似度可以利用它們在漢明空間的二值串之間的漢明距離來度量。基于哈希的高效檢索算法有兩個(gè)主要優(yōu)點(diǎn):一是可以減少數(shù)據(jù)存儲(chǔ)空間;二是可以提高檢索效率。
局部敏感哈希(locality-sensitive hashing,LSH)[Mayur Datar,Nicole Immorlica,Piotr Indyk and Vahab S.Mirrokni.Locality-sensitive hashing scheme based on p-stable distributions.In Proceedings of the twentieth annual symposium on computational geometry,ACM,2004]利用c個(gè)投影函數(shù)來對原始數(shù)據(jù)分別進(jìn)行投影,再把投影后的數(shù)據(jù)閾值化為0和1,這樣就得到了原始數(shù)據(jù)的c位的編碼。但是由于LSH的投影函數(shù)是數(shù)據(jù)無關(guān)的(data-independent),隨機(jī)產(chǎn)生的,并且產(chǎn)生的投影函數(shù)可能彼此是相關(guān)的,因此LSH編碼的效果不是很理想。
為了克服LSH的缺點(diǎn),譜哈希(spectral hashing,SH)[Yair Weiss,Antonio Torralba,and Rob Fergus.Spectral Hashing.In NIPS,2008]根據(jù)原始數(shù)據(jù),利用機(jī)器學(xué)習(xí)的方法尋找合適的投影函數(shù),建立哈希構(gòu)造機(jī)制。主成分哈希(PCA hashing,PCAH)[Bin Wang,Zhiwei Li,Mingjing Li and Wei-Ying Ma.Efficient duplicate image detection algorithm for web images and large-scale database.In ICME,2006.]首先利用PCA對數(shù)據(jù)進(jìn)行投影,然后利用每一維度的均值將數(shù)據(jù)進(jìn)行閾值化為0,1來對數(shù)據(jù)進(jìn)行編碼。但是數(shù)據(jù)經(jīng)過PCA投影之后,每個(gè)維度的方差非常不均勻,差別很大,因此每一維度同等對待地利用1-bit來進(jìn)行編碼是不合理的,并且實(shí)驗(yàn)也驗(yàn)證了PCAH的這個(gè)缺點(diǎn)。各向同性哈希(Isotropic hashing,IsoH)[Weihao Kong and Wu-Jun Li.Isotropic hashing.In NIPS,2012.]的提出就是為了解決這個(gè)問題,在IsoH中,數(shù)據(jù)被PCA投影之后,會(huì)被一個(gè)學(xué)習(xí)到的正交各向同性矩陣重新投影,經(jīng)過兩次投影之后,數(shù)據(jù)在每一維度的方差都是相等的,之后再用1-bit來分別編碼每一維。但I(xiàn)soH存在不同維度具有不同信息,利用同樣的位數(shù)來編碼并不合理的問題。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明提出了一種自適應(yīng)位分配哈希算法(Adaptive bit allocation hashing,ABAH),根據(jù)不同維度的離散度,自適應(yīng)地分配不同的位數(shù)來編碼相應(yīng)的維度。本發(fā)明的特點(diǎn)在于,對于投影后的數(shù)據(jù),離散度比較大的維度會(huì)被更多的位數(shù)來編碼,離散度比較小的維度會(huì)被比較少的位數(shù)來編碼。經(jīng)過ABAH編碼之后,數(shù)據(jù)之間的相似度可以利用它們在漢明空間的編碼之間的漢明距離來度量,而漢明空間的ABAH編碼可以很好地保持原始數(shù)據(jù)的近鄰結(jié)構(gòu)。
由此,本發(fā)明可以解決針對海量圖像檢索存在的圖像特征庫存儲(chǔ)空間大,檢索速度慢的問題,克服了LSH、SH、PCAH方法存在的不足。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動(dòng)化研究所,未經(jīng)中國科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410305838.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:螺桿清洗裝置
- 下一篇:一種自動(dòng)提升堆載平臺(tái)
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





