[發(fā)明專利]數(shù)據(jù)文件的索引查找方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410055060.3 | 申請日: | 2014-02-18 |
| 公開(公告)號: | CN104850564B | 公開(公告)日: | 2019-07-05 |
| 發(fā)明(設計)人: | 張元龍 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13 |
| 代理公司: | 廣州華進聯(lián)合專利商標代理有限公司 44224 | 代理人: | 何平;鄧云鵬 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據(jù)文件 索引 查找 方法 系統(tǒng) | ||
1.一種數(shù)據(jù)文件的索引查找方法,包括如下步驟:
獲取進行數(shù)據(jù)文件查找的關鍵詞;
讀取索引文件,在所述索引文件中通過布隆過濾器定位所述數(shù)據(jù)文件查找的關鍵詞所在的邏輯塊;所述索引文件包括多個邏輯塊;
查找得到與定位的邏輯塊相關聯(lián)的數(shù)據(jù),并輸出查找得到的數(shù)據(jù);
所述獲取進行數(shù)據(jù)文件查找的關鍵詞的步驟之前,所述方法還包括:
獲取待寫入的數(shù)據(jù)文件,并對所述數(shù)據(jù)文件進行邏輯分塊以得到若干塊數(shù)據(jù);
獲取數(shù)據(jù)的關鍵詞,通過哈希函數(shù)對所述數(shù)據(jù)的關鍵詞進行計算以得到相應的映射位置;
調整邏輯塊的位表中映射位置對應的元素值,將所述數(shù)據(jù)與所述邏輯塊關聯(lián)存儲,并將所述數(shù)據(jù)的相關信息寫入所述邏輯塊中,所述邏輯塊為數(shù)據(jù)文件當前寫入數(shù)據(jù)所對應的邏輯塊;
數(shù)據(jù)的相關信息包括進行邏輯分塊時在數(shù)據(jù)文件中的開始寫入時間和結束寫入時間。
2.根據(jù)權利要求1所述的方法,其特征在于,所述讀取索引文件,在所述索引文件中通過布隆過濾器定位所述關鍵詞所在的邏輯塊的步驟包括:
讀取索引文件,以得到索引文件中包含的若干個邏輯塊;
通過哈希函數(shù)對所述數(shù)據(jù)文件查找的關鍵詞進行計算以得到相應的映射位置;
判斷所述映射位置是否與所述邏輯塊中的位表相符,若為是,則定位所述位表所在的邏輯塊。
3.根據(jù)權利要求1所述的方法,其特征在于,所述調整邏輯塊的位表中映射位置對應的元素值,將所述數(shù)據(jù)與所述邏輯塊關聯(lián)存儲,并將所述數(shù)據(jù)的相關信息寫入所述邏輯塊中的步驟之后,所述方法還包括:
判斷所述邏輯塊是否更換為新的邏輯塊,若為是,則將所述位表寫入所述邏輯塊中,并將數(shù)據(jù)文件當前寫入數(shù)據(jù)所對應的邏輯塊設置為新的邏輯塊。
4.根據(jù)權利要求1所述的方法,其特征在于,所述調整邏輯塊的位數(shù)據(jù)組中映射位置對應的元素值,將所述數(shù)據(jù)與所述邏輯塊關聯(lián)存儲,并將所述數(shù)據(jù)的相關信息寫入所述邏輯塊中的步驟之后,所述方法還包括:
所述邏輯塊中位表的使用率優(yōu)先達到預設值時,根據(jù)所述邏輯塊的大小對下一邏輯塊中所述位表的大小進行調整。
5.一種數(shù)據(jù)文件的索引查找系統(tǒng),其特征在于,包括:
關鍵詞獲取模塊,用于獲取進行數(shù)據(jù)文件查找的關鍵詞;
邏輯塊定位模塊,用于讀取索引文件,在所述索引文件中通過布隆過濾器定位所述數(shù)據(jù)文件查找的關鍵詞所在的邏輯塊;所述索引文件包括多個邏輯塊;
查找模塊,用于查找得到與定位的邏輯塊相關聯(lián)的數(shù)據(jù),并輸出查找得到的數(shù)據(jù);
所述系統(tǒng)還包括:
邏輯分塊模塊,用于獲取待寫入的數(shù)據(jù)文件,并對所述數(shù)據(jù)文件進行邏輯分塊以得到若干塊數(shù)據(jù);
位置運算模塊,用于獲取數(shù)據(jù)的關鍵詞,通過哈希函數(shù)對所述數(shù)據(jù)的關鍵詞進行計算以得到相應的映射位置;
寫入模塊,用于調整邏輯塊的位表中映射位置對應的元素值,將所述數(shù)據(jù)與所述邏輯塊關聯(lián)存儲,并將所述數(shù)據(jù)的相關信息寫入所述邏輯塊中,所述邏輯塊為數(shù)據(jù)文件當前寫入數(shù)據(jù)所對應的邏輯塊;
數(shù)據(jù)的相關信息包括進行邏輯分塊時在數(shù)據(jù)文件中的開始寫入時間和結束寫入時間。
6.根據(jù)權利要求5所述的系統(tǒng),其特征在于,所述邏輯塊定位模塊包括:
讀取單元,用于讀取索引文件,以得到索引文件中包含的若干個邏輯塊;
位置映射單元,用于通過哈希函數(shù)對所述數(shù)據(jù)文件查找的關鍵詞進行計算以得到相應的映射位置;
位表判斷單元,用于判斷所述映射位置是否與所述邏輯塊中的位表相符,若為是,則定位所述位表所在的邏輯塊。
7.根據(jù)權利要求5所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括:
邏輯塊判斷模塊,用于判斷所述邏輯塊是否更換為新的邏輯塊,若為是,則將所述位表寫入所述邏輯塊中,并將數(shù)據(jù)文件當前寫入數(shù)據(jù)所對應的邏輯塊設置為新的邏輯塊。
8.根據(jù)權利要求5所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括:
位表調整模塊,用于所述邏輯塊中位表的使用率優(yōu)先達到預設值時,根據(jù)所述邏輯塊的大小對下一邏輯塊中所述位表的大小進行調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410055060.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 嵌入式數(shù)據(jù)庫中數(shù)據(jù)恢復的方法和裝置
- 一種上報、獲得性能數(shù)據(jù)文件的方法及裝置
- 一種數(shù)據(jù)文件處理的方法、裝置及終端
- 一種數(shù)據(jù)文件播放方法及相關設備、系統(tǒng)
- 一種數(shù)據(jù)文件檢測方法和裝置
- 數(shù)據(jù)綜合采集方法及系統(tǒng)
- 一種多類型批量數(shù)據(jù)處理系統(tǒng)及其處理方法
- 數(shù)據(jù)文件的處理方法、裝置、系統(tǒng)和存儲介質
- 嵌入式系統(tǒng)中文件數(shù)據(jù)未同步的檢測方法
- 數(shù)據(jù)操作方法、裝置和計算機可讀存儲介質





