[發明專利]一種基于HBase的構建和檢索增量索引的方法有效
| 申請號: | 201310298976.7 | 申請日: | 2013-07-16 |
| 公開(公告)號: | CN103390038A | 公開(公告)日: | 2013-11-13 |
| 發明(設計)人: | 鄭慶華;董博;賀歡;宋凱磊;徐海鵬;馬天;陳亞興 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hbase 構建 檢索 增量 索引 方法 | ||
技術領域
本發明涉及一種在HBase(一個分布式的、面向列的開源數據庫,支持百萬列上億行數據的存儲)基礎上對持續增加的文本,構建增量索引和對增量索引檢索結果格式化的方法,主要解決目前對持續增加的文本內容構建索引效率低,以及索引與檢索系統難以與其他信息系統協作的問題。
背景技術
隨著互聯網技術的發展,信息系統的中存儲的文本數量日益龐大,為了從中查找所需信息,必須構建索引。當需要索引的數據量極大時,單個計算機提供的存儲容量無法滿足索引的存儲需求。并且,隨著數據的規模持續增長,按照傳統方法對全部數據重新構建索引所花費的時間會難以忍受。另外,用戶對于檢索結果的呈現格式也有更多要求,單一的結果格式無法滿足用戶的使用需求。因此,如何有效的對不斷增長的數據構建增量索引,滿足用戶在檢索格式化方面的需求,成為了亟待解決的難題。
針對如何有效地構建數據索引以及存儲和檢索,以下3篇專利文獻提供了不同的技術方案:
1.對計算機網絡中的資源內容構建索引的方法和設備(200810084087.X);
2.一種分布式實時搜索引擎(201110137785.3);
3.一種基于MapReduce編程架構的索引生成方法和裝置(201110446325.9)。
文獻1通過判斷資源是否鏈接有用戶定義的索引代碼來判斷使用何種索引構建的方法,由于用戶或者內容所有者比其他人更好的理解自身的文檔內容,所以該方法可以有助于提高索引的質量,進而提高搜索的質量。
文獻2包括一種基于Master/Slave的集群式系統的功能性架構,含有中心控制節點、索引數據存儲節點和對外服務節點。也包括一種樹形層次的索引結構,含有索引、索引分片、段、文檔和域的多層結構。通過系統內存中的更新時索引、合并時索引和磁盤索引的配合,實現實時的索引與檢索能力。
文獻3包括利用HBase集群、Hadoop集群和Solr集群功能協作,使用MapReduce編程模型對數據記錄進行分解、合并處理,得到倒排索引文件。該方法可以并行的處理數據,提高了構建海量數據索引的效率。
以上文獻所述方法主要存在以下問題:文獻1沒有考慮數據持續增加時如何構建索引,不適合對持續增加的數據增量構建索引。文獻2沒有提供檢索結果的多種格式化輸出,所以不適合其他信息系統協作索引和檢索持續增加的新數據。文獻3在存儲時沒有重新設計索引的存儲格式,而是依然使用原有單機索引系統的文件存儲方式。
發明內容
本發明的目的在于解決現有方法不能快速有效的對持續增加的數據構建索引并檢索的問題,根據HBase的列存儲機制和索引的格式特點,提出一種基于HBase的構建和檢索增量索引的方法。
為了達到以上目的,本發明是采取如下技術方案予以實現的:
一種基于HBase的構建和檢索增量索引的方法,其特征在于,包括下述步驟:
(1)利用HBase來設計增量索引的存儲結構
利用HBase的數據列動態可擴展的特點,將詞元作為關鍵字主鍵,將文本主鍵作索引存儲表的列字段名稱,利用HBase的分布式存儲的特點,實現對大規模文本和索引信息的存儲,索引系統同時為多個不同的數據源分別提供索引服務;為了有效的存儲索引信息,共設計三個表:
a、表Ttext存儲索引數據的原始信息,字段包括文本主鍵,文本內容與來源等信息;
b、表Tindex存儲數據的索引信息,字段包括關鍵字主鍵,含有關鍵字的數據內容所對應的全部文本主鍵索引列,且表Tindex中的文本主鍵索引列隨著持續增加的索引數據而動態的增加;
c、表Tstatistic存儲統計信息,包括總文本數量,總關鍵字數量;
(2)提供面向Web的待索引文本獲取接口;
(3)對持續增加的文本構建增量索引
當新增文本產生并到達時,索引系統將新增文本的索引追加存儲到已有索引中,不重新對全部數據構建索引,具體方法為:
a、根據表Tstatistic中的總文本數量,對新的待索引文本生成新文本主鍵,然后采用緩沖機制,將新文本主鍵和數據內容存入緩沖區,使用緩沖區將原始文本追加到表Ttext;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310298976.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種醫療檢測設備的數據的轉換及更改方法
- 下一篇:變壓器套管滲油檢修工具





