[發(fā)明專利]一種索引建立方法及系統(tǒng)、檢索方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310406274.6 | 申請日: | 2013-09-09 |
| 公開(公告)號: | CN103488709A | 公開(公告)日: | 2014-01-01 |
| 發(fā)明(設(shè)計)人: | 李東鴿;陳廷斌 | 申請(專利權(quán))人: | 東軟集團(tuán)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 索引 建立 方法 系統(tǒng) 檢索 | ||
1.一種索引建立方法,其特征在于,所述方法包括:
采集服務(wù)器將采集的真實數(shù)據(jù)存儲,并根據(jù)真實數(shù)據(jù)的存儲位置生成索引數(shù)據(jù);所述索引數(shù)據(jù)包括關(guān)鍵值;
將索引數(shù)據(jù)按照關(guān)鍵值順序存入當(dāng)前緩沖塊;將緩沖塊中的索引數(shù)據(jù)按照關(guān)鍵值順序連續(xù)的排列到索引塊中;
將索引塊依次排列作為索引文件。
2.根據(jù)權(quán)利要求1所述方法,其特征在于,所述索引數(shù)據(jù)包括:
真實數(shù)據(jù)的存儲位置、長度、壓縮狀態(tài)信息以及關(guān)鍵值;
所述關(guān)鍵值為利用哈希算法對真實數(shù)據(jù)的特征值進(jìn)行計算得到的哈希值。
3.根據(jù)權(quán)利要求1所述方法,其特征在于,所述將采集的真實數(shù)據(jù)存儲具體為:
采集一個真實數(shù)據(jù),判斷該真實數(shù)據(jù)的體積是否超過壓縮閾值,若超過則對真實數(shù)據(jù)進(jìn)行壓縮;
將未經(jīng)壓縮的或壓縮后的真實數(shù)據(jù)存入當(dāng)前數(shù)據(jù)塊。
4.根據(jù)權(quán)利要求1所述方法,其特征在于,所述緩沖塊具體包括:
緩沖塊狀態(tài)、緩沖塊體積、索引數(shù)據(jù)、最大關(guān)鍵值和最小關(guān)鍵值。
5.根據(jù)權(quán)利要求4所述方法,其特征在于,所述緩沖塊中的索引數(shù)據(jù)按照關(guān)鍵值順序連續(xù)的排列到索引塊中具體為:
設(shè)定索引塊數(shù)量,并分配當(dāng)前索引塊,重復(fù)的歷便所有緩沖塊當(dāng)前的最大關(guān)鍵值或最小關(guān)鍵值;
提取當(dāng)前所有緩沖塊中最大的最大關(guān)鍵值或最小的最小關(guān)鍵值對應(yīng)的索引數(shù)據(jù),并寫入當(dāng)前索引塊中首位,若首位占用則寫入到前一次寫入的索引數(shù)據(jù)之后;
修改被提取索引數(shù)據(jù)的緩沖塊的最大關(guān)鍵值或最小關(guān)鍵值;直到所有索引數(shù)據(jù)均被寫入索引塊中停止寫入。
6.根據(jù)權(quán)利要求5所述方法,其特征在于,所述設(shè)定索引塊數(shù)量具體為:
設(shè)定比較優(yōu)化公式,所述比較優(yōu)化公式為
t為檢索比較次數(shù),n為索引數(shù)據(jù)的總數(shù),b為索引塊的總數(shù),t、n、b均為自然數(shù);當(dāng)b=b’使t為最小值,則b’為索引塊參考數(shù)量;
將索引塊參考數(shù)量設(shè)定為索引塊數(shù)量。
7.根據(jù)權(quán)利要求1-6任意一項所述方法,其特征在于,所述索引數(shù)據(jù)按關(guān)鍵值順序連續(xù)排列作為索引文件具體為:
將索引塊依次排列作為索引文件。
8.根據(jù)權(quán)利要求1-6任意一項所述方法,其特征在于,所述方法還包括:
采集服務(wù)器將索引文件緩存至內(nèi)存,并備份至硬盤。
9.一種索引建立系統(tǒng),其特征在于,所述系統(tǒng)具體包括:
數(shù)據(jù)存儲模塊,用于將采集的真實數(shù)據(jù)存儲;
生成模塊,用于根據(jù)真實數(shù)據(jù)的存儲位置生成索引數(shù)據(jù);所述索引數(shù)據(jù)包括關(guān)鍵值;
緩沖模塊,用于將索引數(shù)據(jù)按照關(guān)鍵值順序存入當(dāng)前緩沖塊;
索引制作模塊,用于將緩沖塊中的索引數(shù)據(jù)按照關(guān)鍵值順序連續(xù)的排列到索引塊中,將索引塊依次排列作為索引文件。
10.一種檢索方法,其特征在于,所述方法包括以下步驟:
獲悉目標(biāo)數(shù)據(jù)的關(guān)鍵值;
以目標(biāo)數(shù)據(jù)的關(guān)鍵值比較索引文件中各索引塊的關(guān)鍵值范圍,確定一個關(guān)鍵值范圍涵蓋目標(biāo)數(shù)據(jù)關(guān)鍵值的索引塊為目標(biāo)索引塊;
在目標(biāo)索引塊中搜尋得到與目標(biāo)數(shù)據(jù)關(guān)鍵值相等的索引數(shù)據(jù),將該索引數(shù)據(jù)作為目標(biāo)索引數(shù)據(jù);
從目標(biāo)索引數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)的存儲位置,并從該存儲位置讀取目標(biāo)數(shù)據(jù)。
11.一種檢索系統(tǒng),其特征在于,所述系統(tǒng)具體包括:
關(guān)鍵值模塊,用于獲悉目標(biāo)數(shù)據(jù)的關(guān)鍵值;
索引塊比較模塊,用于以目標(biāo)數(shù)據(jù)的關(guān)鍵值比較索引文件中各索引塊的關(guān)鍵值范圍,確定一個關(guān)鍵值范圍涵蓋目標(biāo)數(shù)據(jù)關(guān)鍵值的索引塊為目標(biāo)索引塊;
索引數(shù)據(jù)比較模塊,用于在目標(biāo)索引塊中搜尋得到與目標(biāo)數(shù)據(jù)關(guān)鍵值相等的索引數(shù)據(jù),將該索引數(shù)據(jù)作為目標(biāo)索引數(shù)據(jù);
數(shù)據(jù)讀取模塊,用于從目標(biāo)索引數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)的存儲位置,并從該存儲位置讀取目標(biāo)數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團(tuán)股份有限公司,未經(jīng)東軟集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310406274.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





