[發明專利]HBase非主鍵索引構建與查詢方法及其系統有效
| 申請號: | 201410658614.9 | 申請日: | 2014-11-18 |
| 公開(公告)號: | CN104850572B | 公開(公告)日: | 2018-11-23 |
| 發明(設計)人: | 董振江;曲文武;黃宜華;葛微 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | hbase 主鍵 索引 構建 查詢 方法 及其 系統 | ||
本發明公開了一種HBase非主鍵索引構建與查詢方法及其系統。所述方法包括:在分布式內存和Hbase數據表上建立全局非主鍵索引;識別針對非主鍵屬性的查詢,依據所述全局非主鍵索引定位到相應的索引節點,并向含有結果集的所述索引節點發送查詢請求。通過在分布式內存和Hbase數據表上建立全局非主鍵索引,以及在識別針對非主鍵屬性的查詢時,依據所述全局非主鍵索引定位到相應的索引節點,并向含有結果集的所述索引節點發送查詢請求,保證不含有結果集的節點不參加查詢,從而避免了現有技術中分布式非主鍵索引存在的性能浪費的問題。提高了HBase上大數據非主鍵屬性的查詢性能,實現了為HBase提供非主鍵屬性上的實時查詢的能力。
技術領域
本發明涉及數據庫技術領域,具體而言,涉及一種HBase非主鍵索引構建與查詢方法及其系統。
背景技術
HBase是一個面向列、高可靠、可擴展的分布式數據存儲系統,數據以<key,value><鍵-值>的形式存儲,其中key稱為行鍵,相當于關系數據庫中的主鍵。數據會按照行鍵的字節字典序有序地組織存儲。HBase數據文件存儲在Hadoop HDFS(Hadoop Distributed FileSystem,分布式文件系統)中,以提供良好的可擴展性和容錯性。行鍵唯一地標識HBase的一行數據,每行數據可以有多個屬性列,相關的列可以歸到一個列簇。列簇是HBase存儲的基本邏輯單元,一行數據中同一列簇的數據被連續存放,這就是HBase的列存儲。在物理存儲上,HBase表被橫向分割為多個Region,Master服務器會將多個Region均衡地分配到不同的Region服務器上,并且管理Region的分裂和合并,數據的橫向劃分為HBase提供了良好的可擴展性。
目前,在HBase上檢索數據的方法有如下三種:指定單個行鍵查詢、指定行鍵的范圍查詢、以及掃描(Scan)。HBase以字節數組的字典序對行鍵進行排序,支持高效的指定行鍵的單點查詢和指定行鍵范圍的范圍查詢。而掃描操作主要用于對非主鍵數據列的查詢,基于行鍵檢索的時間復雜性是O(logN),如果使用Bloom Filter甚至可以達到O(1),而掃描操作的時間復雜性是O(N)。
隨著在HBase系統上應用的驅動,人們發現單一的通過Rowkey檢索數據的方式不能再滿足更多應用的需求,人們希望像SQL一樣檢索數據,例如select*from table wherecol=val。可是,HBase之前的定位是大表的存儲,要進行這樣的查詢,往往是要通過類似Hive、Pig等系統進行全表的MapReduce計算,這種方式既浪費了機器的計算資源,又因高延遲使得應用黯然失色。所以在HBase的非主鍵屬性上建立索引是迫切的需求。
HBase上的非主鍵查詢采用掃描的方式,數據從頭開始逐行掃描,依次檢查每條記錄的查詢屬性是否滿足查詢條件,將滿足查詢條件的結果集匯總返回。這種方式簡單低效,難以滿足大數據上的實時查詢需求。所以,一些企業和研究小組陸續開發出了面向實際應用需求的HBase非主鍵索引,以提高HBase上非主鍵屬性查詢的效率。
總體來說,當前HBase非主鍵索引機制方案按照其基本邏輯結構分為兩類:集中式非主鍵索引與分布式非主鍵索引。
集中式非主鍵索引是集中管理的,它們是傳統單節點數據管理系統中索引結構的直觀擴展,不需了解數據的真實分布情況。處理被索引字段上的檢索請求的過程分為兩個步驟:
首先在全局索引結構中定位含有結果集的數據節點;
然后訪問相應的節點存取索引數據。
HBase-indexer是一個集中式的非主鍵索引方案。通過將HBase的更新數據異步發送到索引服務器上,在索引服務器上分析數據并生成對應索引數據,索引服務器會定期的將索引數據推送到SolrCloud服務集群上。查詢則通過訪問Solr服務來定位HBase上的內容。這種索引機制定期的對索引進行更新,索引的時效性稍差,在面向實時應用的時候,難以有效滿足應用需求。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410658614.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種索引式增強現實系統
- 下一篇:A2L文件自動生成方法及系統





