[發明專利]一種基于HBase的構建和檢索增量索引的方法有效
| 申請號: | 201310298976.7 | 申請日: | 2013-07-16 |
| 公開(公告)號: | CN103390038A | 公開(公告)日: | 2013-11-13 |
| 發明(設計)人: | 鄭慶華;董博;賀歡;宋凱磊;徐海鵬;馬天;陳亞興 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hbase 構建 檢索 增量 索引 方法 | ||
1.一種基于HBase的構建和檢索增量索引的方法,其特征在于,包括下述步驟:
(1)利用HBase來設計增量索引的存儲結構
利用HBase的數據列動態可擴展的特點,將詞元作為關鍵字主鍵,將文本主鍵作索引存儲表的列字段名稱,利用HBase的分布式存儲的特點,實現對大規模文本和索引信息的存儲,索引系統同時為多個不同的數據源分別提供索引服務;為了有效的存儲索引信息,共設計三個表:
a、表Ttext存儲索引數據的原始信息,字段包括文本主鍵,文本內容與來源等信息;
b、表Tindex存儲數據的索引信息,字段包括關鍵字主鍵,含有關鍵字的數據內容所對應的全部文本主鍵索引列,且表Tindex中的文本主鍵索引列隨著持續增加的索引數據而動態的增加;
c、表Tstatistic存儲統計信息,包括總文本數量,總關鍵字數量;
(2)提供面向Web的待索引文本獲取接口;
(3)對持續增加的文本構建增量索引
當新增文本產生并到達時,索引系統將新增文本的索引追加存儲到已有索引中,不重新對全部數據構建索引,具體方法為:
a、根據表Tstatistic中的總文本數量,對新的待索引文本生成新文本主鍵,然后采用緩沖機制,將新文本主鍵和數據內容存入緩沖區,使用緩沖區將原始文本追加到表Ttext;
b、將待索引文本分詞得到詞元,英文以單詞為詞元分詞,中文以字、詞作為詞元分詞,記錄詞元在內容中出現的數量、位置信息;最后,在表Tindex中以詞元作為關鍵字主鍵進行查詢,根據查詢結果,增加新的索引信息,有兩種情況:①如果表Tindex中已存在該關鍵字主鍵,則在已有的文本主鍵索引列基礎上,將新文本主鍵追加為該關鍵字主鍵的索引列;②如果表Tindex中不存在該關鍵字主鍵,則在表Tindex中新增該關鍵字主鍵,并將新文本主鍵作為新的索引列,采用緩沖機制,將新的索引信息存入緩沖區,使用緩沖區將索引信息存入表Tindex,根據文本主鍵的數量和關鍵字主鍵的數量,將表Tstatistic中的總文本數量、總關鍵字數量等信息更新;
(4)提供多種格式檢索結果的服務接口。
2.如權利要求1所述的基于HBase的構建和檢索增量索引的方法,其特征在于,所述的提供面向Web的待索引文本獲取接口包括:該接口的入口參數采用HTTP協議的POST請求規范,要求用戶提供兩類信息,第一類是配置信息,包括服務地址、端口號碼、服務口令、索引庫名稱等信息用于身份驗證和索引系統的配置;第二類是待索引信息,包括待索引文本的標題、來源地址、正文內容等用于構建索引;該接口收到用戶的索引請求后,根據請求的內容,交由索引系統實現增量索引。
3.如權利要求1所述的基于HBase的構建和檢索增量索引的方法,其特征在于,所述的基于緩沖機制存儲增量索引的方法為:全部被索引的文本內容,以及全部通過索引系統構建的索引信息,在存儲時不直接寫入HBase,而是先將其放入緩沖區,緩沖區隊列中的每個元素是新增的索引信息,索引信息存放的順序嚴格按照信息生成的時間順序;當新增文本的索引構建完成后,檢查緩沖區的數據量是否大于等于預定義的閾值,有兩種情況:
a、如果緩沖區的數據量小于閾值,則暫時不進行存儲;
b、如果緩沖區的數據量大于等于閾值,則將緩沖區中的文本主鍵與文本內容批量存儲到表Ttext,關鍵字主鍵和索引列數據批量存儲到表Tindex,完成索引信息寫入HBase;從緩沖區取出索引信息的過程嚴格按照其隊列順序,按先進先出的方式從最早緩存的數據開始取出,將取出的數據寫入到HBase的對應表中。
4.如權利要求1所述的基于HBase的構建和檢索增量索引的方法,其特征在于,所述的提供多種格式檢索結果的服務接口具體包括:
通過面向Web的接口提交搜索請求,接口參數采用HTTP協議的GET請求規范,用戶需要提交檢索關鍵字和檢索結果格式要求,其中檢索結果格式包括:XML格式,HTML格式,JSON格式,CSV格式,將搜索詞作為關鍵字主鍵,在表Tindex中查詢與關鍵字主鍵相同的記錄,根據查詢結果,有以下兩種情況:
a、如果不存在記錄,則檢索結果數量為0,檢索結果列表為空;
b、如果存在記錄,則取出記錄的全部文本主鍵索引列,檢索結果數量為全部文本主鍵索引列的列數量,根據文本主鍵從表Ttext取得對應的文本內容,檢索結果列表為全部文本主鍵對應的文本內容列表;然后根據用戶要求的數據格式,將檢索結果的數量與檢索結果的列表進行格式化,如果用戶不指定格式,則將按照默認的HTML格式對檢索結果進行格式化,生成最終檢索結果返回給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310298976.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種醫療檢測設備的數據的轉換及更改方法
- 下一篇:變壓器套管滲油檢修工具





