[發(fā)明專利]位置敏感哈希隨機(jī)性減弱方法有效
| 申請(qǐng)?zhí)枺?/td> | 201210170014.9 | 申請(qǐng)日: | 2012-05-28 |
| 公開(kāi)(公告)號(hào): | CN102722554A | 公開(kāi)(公告)日: | 2012-10-10 |
| 發(fā)明(設(shè)計(jì))人: | 高毫林;郭志剛;李弼程;藺博宇 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍信息工程大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 鄭州大通專利商標(biāo)代理有限公司 41111 | 代理人: | 陳大通 |
| 地址: | 450002*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 位置 敏感 隨機(jī)性 減弱 方法 | ||
(一)、技術(shù)領(lǐng)域:本發(fā)明涉及一種檢索方法,特別是涉及一種位置敏感哈希隨機(jī)性減弱方法。
(二)、背景技術(shù):相似性搜索在許多方面有著非常重要的作用,如數(shù)據(jù)壓縮、數(shù)據(jù)挖掘、信息檢索、圖像和視頻檢索、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)和數(shù)據(jù)分析等等。這些研究中的對(duì)象一般能用相關(guān)特征的集合或高維空間中的點(diǎn)表示。這些點(diǎn)的維數(shù)范圍很大,會(huì)從幾十到幾千。當(dāng)維數(shù)較低的時(shí)候,這類問(wèn)題比較容易,但當(dāng)維數(shù)比較高時(shí),解決起來(lái)會(huì)比較困難,也就是所謂的“維數(shù)災(zāi)難”。盡管經(jīng)過(guò)了幾十年的努力,現(xiàn)在的解決方案仍然不能讓人十分滿意。因?yàn)閷?duì)于高維向量搜索,這些方法和線性窮盡搜索相比幾乎沒(méi)有什么優(yōu)勢(shì)甚至?xí)嘶骄€性搜索。這種情況嚴(yán)重影響了相似性搜索的效果。
位置敏感哈希(LSH,Locality?Sensitive?Hashing)是當(dāng)前解決高維空間近似最近鄰(ANN,Approximate?Nearest?Neighbor)搜索問(wèn)題的速度最快的方法。其中,LSH在漢明空間進(jìn)行搜索,E2LSH(Exact?Euclidean?Locality?Sensitive?Hashing)是對(duì)LSH的改進(jìn)之一,在歐氏空間進(jìn)行搜索。與基于樹(shù)的索引方法相比,它們不但復(fù)雜度低、支持維數(shù)高,而且檢索時(shí)間大大縮短,在圖像檢索、復(fù)制檢測(cè)等方向都有應(yīng)用。
LSH和E2LSH作為ANN解決方案的基礎(chǔ)在于相似性搜索并不一定要得出精確的最近鄰,在許多情況下,近似最近鄰提供的結(jié)果已經(jīng)比較讓人滿意了,關(guān)鍵在于它能以更小的代價(jià)完成目標(biāo)。但這是這個(gè)基礎(chǔ)使得LSH不可避免的存在一定的隨機(jī)性。這樣的隨機(jī)性如果得不到好的控制,就會(huì)影響算法的性能。如在基于視覺(jué)詞典的圖像和視頻搜索工作中,可以用它來(lái)產(chǎn)生視覺(jué)詞典,而視覺(jué)詞典本身就存在著不確定性,如果對(duì)LSH聚類產(chǎn)生詞典過(guò)程中不加以控制,它的隨機(jī)性會(huì)加劇這種不確定性傳播,嚴(yán)重影響最終結(jié)果。
LSH的基本思想是:如果兩個(gè)點(diǎn)相距很近,那么在進(jìn)行映射操作后,這兩個(gè)點(diǎn)仍然相距很近。為了對(duì)這些點(diǎn)進(jìn)行映射,要先建立哈希表。好的哈希表可以使一個(gè)點(diǎn)的查詢?cè)贠(1)時(shí)間內(nèi)和O(N)內(nèi)存空間上完成查詢,N是數(shù)據(jù)點(diǎn)的數(shù)目。
在實(shí)現(xiàn)時(shí),LSH用一系列哈希函數(shù)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行哈希,使那些比較接近的點(diǎn)對(duì)于每個(gè)哈希函數(shù)發(fā)生沖突的概率比距離遠(yuǎn)的點(diǎn)要大,也就是把比較相近的點(diǎn)哈希到同一個(gè)桶。這樣,通過(guò)對(duì)查詢點(diǎn)進(jìn)行哈希并獲取它所在桶中的標(biāo)志就可以進(jìn)一步得到比較近的鄰居。哈希運(yùn)算需要定義位置敏感哈希(LSH)函數(shù)。對(duì)于點(diǎn)域S,LSH函數(shù)族定義如下:
函數(shù)族是位置敏感(locality?sensitive)的,如果對(duì)于任何q,函數(shù):||q-v||=t]與t呈嚴(yán)格遞減關(guān)系。也就是說(shuō),點(diǎn)q和v沖突概率隨著它們之間的距離的增加而減少。
這樣,對(duì)于點(diǎn)v∈B(q,R)和點(diǎn)就有p(||q-v||)>p(||q-u||)。LSH函數(shù)族把點(diǎn)集S中的點(diǎn)哈希到某個(gè)域U,然后計(jì)算點(diǎn)q的哈希值,據(jù)此找到與它沖突的點(diǎn)。為減少運(yùn)行時(shí)間,需增大[0,R]和[R,∞]之間沖突概率的差距,可將多個(gè)函數(shù)連接起來(lái)。例如,定義一個(gè)函數(shù)族g(v)=(h1(v),…h(huán)k(v)),其中并從中選擇獨(dú)立且分不一致的L個(gè)函數(shù)g1,…gL組成哈希函數(shù)族。在預(yù)處理過(guò)程中,算法把每個(gè)點(diǎn)存儲(chǔ)在桶gj(v)中。給出查詢點(diǎn)q后,算法搜索所有的桶g1,…gL,并對(duì)某個(gè)桶中發(fā)現(xiàn)的每個(gè)點(diǎn)v計(jì)算q到v的距離,如果||q-v||≤R,則認(rèn)為v就是算法要得到的點(diǎn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍信息工程大學(xué),未經(jīng)中國(guó)人民解放軍信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210170014.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 位置檢測(cè)裝置、位置檢測(cè)電路及位置檢測(cè)方法
- 位置估計(jì)設(shè)備、位置估計(jì)方法、以及位置估計(jì)系統(tǒng)
- 位置檢測(cè)裝置、位置檢測(cè)方法及位置檢測(cè)程序
- 位置辨識(shí)裝置、位置辨識(shí)系統(tǒng)以及位置辨識(shí)方法
- 位置指示器、位置檢測(cè)裝置、位置檢測(cè)電路以及位置檢測(cè)方法
- 位置檢測(cè)裝置、位置檢測(cè)系統(tǒng)以及位置檢測(cè)方法
- 位置檢測(cè)裝置、位置檢測(cè)系統(tǒng)以及位置檢測(cè)方法
- 位置檢測(cè)裝置、位置檢測(cè)方法以及位置檢測(cè)系統(tǒng)
- 位置估計(jì)方法、位置估計(jì)裝置、以及位置估計(jì)系統(tǒng)
- 位置檢測(cè)方法、位置檢測(cè)裝置以及位置檢測(cè)系統(tǒng)
- 可測(cè)量片外橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置位置軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵中心軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵外側(cè)軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵中心橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 三軸硅微加速度計(jì)
- 三軸硅微加速度計(jì)
- 一種用于大噸位傳感器的自定位應(yīng)變計(jì)
- 用于簡(jiǎn)化懸臂梁傳感器的全橋箔式電阻應(yīng)變計(jì)
- 一種敏感文件管理方法
- 組合的隨機(jī)性邏輯
- 內(nèi)部結(jié)構(gòu)具有隨機(jī)性的防偽包裝物和商品防偽方法
- 圖像處理系統(tǒng)和方法
- 隨機(jī)性檢測(cè)方法和裝置
- 高性能隨機(jī)數(shù)發(fā)生方法及發(fā)生器
- 基于隨機(jī)性電源出力預(yù)測(cè)的多目標(biāo)約束優(yōu)化電網(wǎng)調(diào)度策略
- 隨機(jī)性檢測(cè)方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種隨機(jī)性電源最大準(zhǔn)入容量模型建立及求解方法
- 彩票隨機(jī)檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 考慮水資源供需過(guò)程關(guān)聯(lián)性與隨機(jī)性的水庫(kù)優(yōu)化調(diào)度方法





