[發明專利]一種基于HBase的更新增量索引的方法有效
| 申請號: | 201410025773.5 | 申請日: | 2014-01-20 |
| 公開(公告)號: | CN103778219A | 公開(公告)日: | 2014-05-07 |
| 發明(設計)人: | 鄭慶華;賀歡;李冰;董博;李慶喻 | 申請(專利權)人: | 西安交通大學;上海網達軟件股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hbase 更新 增量 索引 方法 | ||
1.一種基于HBase的更新增量索引的方法,其特征在于,包括下述步驟:
(1)從HBase索引庫中獲取待更新文檔D的歷史內容C0
待更新文檔D的歷史內容在HBase索引庫中已經存在,包括其內容文本與內容文本的索引,通過待更新文檔D的標識符,從HBase索引庫中讀取其歷史內容;
(2)解析待更新文檔D的歷史內容C0,獲取C0的前置表FT0;
(3)解析待更新文檔D的當前內容C1,獲取C1的前置表FT1;
(4)遍歷C1的前置表FT1,對FT1中每個術語t,結合FT0進行判斷,修改前置表FT1和FT0的內容,具體方法如下:
判斷FT0中是否存在術語t,分別進行如下處理:
a、如果不存在,則繼續判斷FT1的下一個術語;
b、如果存在,則判斷該術語t的出現頻率出現位置與FT0中術語t的出現頻率出現位置是否都相同,分別進行如下處理:
i、如果都相同,則將該術語t以及t的出現頻率出現位置從FT0和FT1中刪除;
ii、如果任一不相同,則將該術語t以及出現頻率出現位置從FT0中刪除;
(5)將FT0中的所有術語t從HBase索引庫中刪除
步驟(4)執行完畢后,FT0中的全部術語都是待更新文檔D的當前內容C1中不再存在的術語,所以更新時應從HBase索引庫中刪除這些術語對應的索引信息,在HBase索引庫中,以FT0中的術語t作為主鍵,以待索引文檔D的標識符作為列字段,在HBase索引庫中進行查詢,將對應位置的索引信息刪除;
(6)將FT1中的所有術語提交到HBase索引庫進行更新
步驟(4)執行完畢后,FT1中的全部術語都是待更新文檔D的當前內容C1對比歷史內容C0發生變化的術語,所以更新時應將這些術語的信息提交給HBase索引庫,更新對應術語的索引信息,更新索引時,在HBase索引庫中,以FT1中的術語t作為主鍵,以待索引文檔D作為列字段在HBase索引庫中進行查詢,將對應位置的索引信息替換為FT1中術語t的出現頻率與出現位置;
(7)將待更新文檔D的內容替換為C1。
2.如權利要求1所述的基于HBase的更新增量索引的方法,其特征在于,步驟(2)、(3)中所述的前置表FT0、FT1是一種實現倒排索引的列表數據結構,其每行有3列,其內容格式為:
通過對文檔內容進行解析,得到文檔中每個術語的出現頻率和出現位置,將這些信息綜合在一起,即為該文檔內容的前置表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學;上海網達軟件股份有限公司,未經西安交通大學;上海網達軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410025773.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:管孔式布料裝置
- 下一篇:一種鋁電解槽石墨陽極鋼爪抗腐蝕高溫涂料





