[發(fā)明專利]基于哈希函數(shù)的高效層級索引構(gòu)建及檢索方法有效
| 申請?zhí)枺?/td> | 201710506322.7 | 申請日: | 2017-06-28 |
| 公開(公告)號: | CN107273529B | 公開(公告)日: | 2020-02-07 |
| 發(fā)明(設(shè)計)人: | 宋偉;彭智勇;史成良;楊先娣 | 申請(專利權(quán))人: | 武漢圖信科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F21/62 |
| 代理公司: | 42236 武漢智盛唯佳知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人: | 胡紅林 |
| 地址: | 430079 湖北省*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 函數(shù) 高效 層級 索引 構(gòu)建 檢索 方法 | ||
本發(fā)明涉及基于哈希函數(shù)的高效層級索引構(gòu)建及檢索方法,包括:對待歸檔文檔di中的每個關(guān)鍵詞進(jìn)行哈希操作,得到各關(guān)鍵詞的n個正整數(shù)集合;每個關(guān)鍵詞的n個正整數(shù)集合構(gòu)成最終表示待歸檔文檔di的n維向量;將所述n維向量放入文檔集合索引矩陣T中,集合索引矩陣中第i行表示文檔di的索引信息,第j列表示文檔中存在哈希處理結(jié)果為j的關(guān)鍵詞。本發(fā)明采用的樹形結(jié)構(gòu)數(shù)據(jù)這類存儲方式非常便于面向檢索的索引結(jié)構(gòu),且采用哈希函數(shù)對關(guān)鍵詞的處理具有較高的安全性,不僅能夠保證索引效率受到的影響較少,同時也能夠提高索引的安全性。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)檢索,具體地指一種基于哈希函數(shù)的高效層級索引構(gòu)建及檢索方法。
背景技術(shù)
在信息技術(shù)日益發(fā)達(dá)的今天,檢索技術(shù)成為了信息技術(shù)中極其重要的一個領(lǐng)域,對于信息系統(tǒng)的用戶而言,通過檢索技術(shù)快速定位和獲取目標(biāo)數(shù)據(jù)已經(jīng)成為信息系統(tǒng)日常使用中必不可少的環(huán)節(jié)。日常檢索技術(shù)在為人們帶來極大方便的同時,也帶來了許多安全性威脅。在一些涉密單位的相關(guān)部門中,由于日常工作涉及的數(shù)據(jù)量非常巨大,必須使用檢索技術(shù)來快速獲取數(shù)據(jù),但是由于數(shù)據(jù)涉密,檢索過程的安全性成為一個備受關(guān)注的問題。在信息安全形勢日益嚴(yán)峻的今天,如何對涉密數(shù)據(jù)進(jìn)行安全檢索將是數(shù)據(jù)存儲問題中一個很重要的環(huán)節(jié),只有實現(xiàn)安全高效的數(shù)據(jù)檢索,才能保證海量數(shù)據(jù)的使用價值,使海量數(shù)據(jù)的存儲具有意義。
但是傳統(tǒng)的全文檢索結(jié)構(gòu)往往是基于明文的全文檢索,即對文檔數(shù)據(jù)構(gòu)建索引時僅僅直接按照明文關(guān)鍵詞構(gòu)建明文索引,在索引結(jié)構(gòu)中,系統(tǒng)不僅會保留對文檔數(shù)據(jù)進(jìn)行分詞得到的關(guān)鍵詞集合,同時還會保存與這些關(guān)鍵詞相關(guān)聯(lián)的位置信息,這一特點導(dǎo)致一旦系統(tǒng)的索引存儲區(qū)域遭受不明攻擊者的攻擊,攻擊者可以通過系統(tǒng)中存儲的索引數(shù)據(jù)通過統(tǒng)計方法還原成原始文檔數(shù)據(jù),傳統(tǒng)索引結(jié)構(gòu)存在的這一嚴(yán)重的安全問題會導(dǎo)致存儲數(shù)據(jù)的用戶蒙受巨大的損失。另一方面,在傳統(tǒng)方法中,同樣存在著一些針對密文數(shù)據(jù)的全文檢索,對于密文數(shù)據(jù)的全文檢索由于將文檔數(shù)據(jù)和全文關(guān)鍵詞進(jìn)行了加密操作,因此其安全性相比于傳統(tǒng)的明文數(shù)據(jù)來說安全性相對較高,一種傳統(tǒng)的密文全文檢索解決方式是對目前構(gòu)建的明文全文索引進(jìn)行加密處理,這種處理一般被分為兩個層次,即索引級加密處理和索引詞級加密處理。這兩種處理在檢索過程中仍需要對密文進(jìn)行解密,本質(zhì)上仍然是明文全文檢索,同樣存在著很大的安全隱患,這就需要一套更加安全合理的密文全文檢索系統(tǒng)來提供安全高效的密文全文檢索服務(wù)。
正是基于以上需求,本發(fā)明提出一種基于哈希函數(shù)的高效層級全文檢索方法。
樹形結(jié)構(gòu)數(shù)據(jù)這類存儲方式非常便于面向檢索的索引結(jié)構(gòu),具有數(shù)據(jù)組織有序、檢索效率高等優(yōu)勢。而哈希函數(shù)具有單向性的特點,即由哈希函數(shù)通過輸入得出輸出結(jié)果比較簡單,而從哈希函數(shù)輸出結(jié)果逆推函數(shù)輸入?yún)s有著很大的難度,需要投入非常大的計算成本,因此,哈希函數(shù)具有較高的安全性本方法以哈希函數(shù)為基礎(chǔ),采用樹形結(jié)構(gòu)為主要數(shù)據(jù)結(jié)構(gòu)構(gòu)建全文檢索索引,不僅能夠保證索引效率受到的影響較少,同時也能夠提高索引的安全性。
發(fā)明內(nèi)容
本發(fā)明目的在于克服上述現(xiàn)有技術(shù)的不足而提供一種基于哈希函數(shù)的高效層級索引構(gòu)建及其檢索方法,該方法能夠?qū)崿F(xiàn)安全高效的密文全文檢索。
實現(xiàn)本發(fā)明目的采用的技術(shù)方案是一種基于哈希函數(shù)的高效層級索引構(gòu)建方法,該方法包括:
將待歸檔文檔di構(gòu)建成n維向量Ti;
對待歸檔文檔di中的每個關(guān)鍵詞進(jìn)行哈希操作,得到代表各個關(guān)鍵詞的k個正整數(shù)的集合;
代表關(guān)鍵詞集合的k個正整數(shù)集合構(gòu)成最終表示待歸檔文檔di的n維向量Tik;
將所述n維向量Tik放入文檔集合索引矩陣T中,集合索引矩陣中第i行表示文檔di的索引信息,第j列表示文檔中存在哈希處理結(jié)果為j的關(guān)鍵詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢圖信科技有限公司,未經(jīng)武漢圖信科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710506322.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





