[發明專利]一種索引建立方法及系統、檢索方法及系統有效
| 申請號: | 201310406274.6 | 申請日: | 2013-09-09 |
| 公開(公告)號: | CN103488709A | 公開(公告)日: | 2014-01-01 |
| 發明(設計)人: | 李東鴿;陳廷斌 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 索引 建立 方法 系統 檢索 | ||
技術領域
本發明涉及數據處理技術領域,特別涉及一種索引建立方法及系統、檢索方法及系統。
背景技術
數據采集過程可以概括為將數據從源服務器采集到目標服務器的過程,而對于現階段大規模的數據采集,往往需要一個專門的采集服務器來完成這一過程。這也就必然導致了采集服務器中數據流量極為龐大。于是在分布式多表關聯采集、變化數據比對、業務代碼替換等存在數據查詢和檢索需求場景下,能夠快速的查詢和檢索匹配數據便成為一項亟待解決的新問題。
在現有技術中,一般采用緩存技術實現快速的查詢和檢索,也就是將查詢頻率較高的數據緩存在內存中以便快速檢索。不過采集服務器的數據流往往達到上百GB甚至更高的級別,遠遠大于現階段服務器的內存容量。所以能夠緩存在內存中的數據僅僅為一小部分;絕大部分必須存儲在采集服務器的硬盤中。
如果需要檢索存儲在硬盤中的數據,則采集服務器中數據必然要在檢索過程中進行頻繁的內存/硬盤切換,速度非常緩慢;甚至相比于從存在索引的源服務器中直接進行檢索,檢索采集服務器硬盤的過程還要更慢。可見利用緩存技術在采集服務器中進行檢索的技術方案由于速度慢、效率低,很難滿足實際使用的需求。
發明內容
有鑒于此,本發明的目的在于提供一種索引建立方法及系統、檢索方法及系統,所述方法通過為采集服務器硬盤中的真實數據建立索引以實現高效快速的檢索。
為實現上述目的,本發明有如下技術方案:
一種索引建立方法,所述方法包括:
采集服務器將采集的真實數據存儲,并根據真實數據的存儲位置生成索引數據;所述索引數據包括關鍵值;
將索引數據按照關鍵值順序存入當前緩沖塊;將緩沖塊中的索引數據按照關鍵值順序連續的排列到索引塊中;
將索引塊依次排列作為索引文件。
所述索引數據包括:
真實數據的存儲位置、長度、壓縮狀態信息以及關鍵值;
所述關鍵值為利用哈希算法對真實數據的特征值進行計算得到的哈希值。
所述將采集的真實數據存儲具體為:
采集一個真實數據,判斷該真實數據的體積是否超過壓縮閾值,若超過則對真實數據進行壓縮;
將未經壓縮的或壓縮后的真實數據存入當前數據塊。
所述緩沖塊具體包括:
緩沖塊狀態、緩沖塊體積、索引數據、最大關鍵值和最小關鍵值。
所述緩沖塊中的索引數據按照關鍵值順序連續的排列到索引塊中具體為:
設定索引塊數量,并分配當前索引塊,重復的歷便所有緩沖塊當前的最大關鍵值或最小關鍵值;
提取當前所有緩沖塊中最大的最大關鍵值或最小的最小關鍵值對應的索引數據,并寫入當前索引塊中首位,若首位占用則寫入到前一次寫入的索引數據之后;
修改被提取索引數據的緩沖塊的最大關鍵值或最小關鍵值;直到所有索引數據均被寫入索引塊中停止寫入。
所述設定索引塊數量具體為:
設定比較優化公式,所述比較優化公式為
t為檢索比較次數,n為索引數據的總數,b為索引塊的總數,t、n、b均為自然數;當b=b’使t為最小值,則b’為索引塊參考數量;
將索引塊參考數量設定為索引塊數量。
所述索引數據按關鍵值順序連續排列作為索引文件具體為:
將索引塊依次排列作為索引文件。
所述方法還包括:
采集服務器將索引文件緩存至內存,并備份至硬盤。
一種索引建立系統,所述系統具體包括:
數據存儲模塊,用于將采集的真實數據存儲;
生成模塊,用于根據真實數據的存儲位置生成索引數據;所述索引數據包括關鍵值;
緩沖模塊,用于將索引數據按照關鍵值順序存入當前緩沖塊;
索引制作模塊,用于將緩沖塊中的索引數據按照關鍵值順序連續的排列到索引塊中,將索引塊依次排列作為索引文件。
一種檢索方法,所述方法包括以下步驟:
獲悉目標數據的關鍵值;
以目標數據的關鍵值比較索引文件中各索引塊的關鍵值范圍,確定一個關鍵值范圍涵蓋目標數據關鍵值的索引塊為目標索引塊;
在目標索引塊中搜尋得到與目標數據關鍵值相等的索引數據,將該索引數據作為目標索引數據;
從目標索引數據中提取目標數據的存儲位置,并從該存儲位置讀取目標數據。
一種檢索系統,所述系統具體包括:
關鍵值模塊,用于獲悉目標數據的關鍵值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310406274.6/2.html,轉載請聲明來源鉆瓜專利網。





