[發明專利]一種基于協處理器的HBase二級內存索引構建方法在審
| 申請號: | 202010836573.3 | 申請日: | 2020-08-19 |
| 公開(公告)號: | CN112052240A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 婁淵勝;葉楓;朱松杰 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/23;G06F16/2453 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210024 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 處理器 hbase 二級 內存 索引 構建 方法 | ||
本發明公開一種基于協處理器的HBase二級內存索引構建方法,包括步驟:初始化原始HBase數據表;根據原始數據表使用協處理器初始化二級索引;根據原始數據表的更新,通過協處理器數據更新二級索引并構建內存索引結構;數據表分片操作;對分片的數據表初始化二級索引并構建內存索引結構;將構建的內存索引通過內存持久化方法持久化存儲到磁盤上。本發明能夠實現HBase二級內存索引的構建及持久化存儲,彌補了原生HBase數據庫只支持通過全盤掃描的方式進行非主鍵查詢的缺點,提高了HBase非主鍵檢索的效率,保證了索引的可用性和容錯性。
技術領域
本發明涉及一種基于協處理器的HBase二級內存索引構建方法,屬于NoSQL技術優化領域,尤其涉及一種基于協處理器的HBase二級內存索引構建方法。
背景技術
隨著大數據時代的到來,傳統的關系型數據庫難以處理無規范模式的數據集,并且隨著數據集規模的增大,不能提供高效的存儲和查詢服務,不能滿足系統的新需求。在此背景下,越來越多的大數據系統和NoSQL(Not-Only-SQL即非關系型數據庫)被開發出來,HBase便是其中之一。
HBase由多個軟件子系統組成,主要包括客戶端、HMaster、HRegionServer、Zookeeper等,這些子系統共同組成一個分布式應用系統,它具有開源、分布式、可擴展及面向列存儲的特點,能夠為大數據提供隨機、實時的讀寫訪問功能。
HBase在其主鍵上建立了B+樹索引,在使用主鍵進行查詢時效率很高。但是,在進行非主鍵的條件查詢時,由于缺少主鍵的支撐,HBase必須進行全表掃描,導致查詢效率低下,無法滿足上述要求,如何提高HBase的檢索速度,使其支持各類查詢操作,成為一個亟需解決的問題。
發明內容
發明目的:本發明提供了一種支持HBase的非主鍵索引的二級內存索引構建方法。
技術方案:為實現上述發明目的,本發明采用的技術方案為一種基于協處理器的HBase二級內存索引構建方法,通過對原始數據表的非主鍵重建索引表,并將主鍵與非主鍵值形成組合關系,確保索引表主鍵的唯一性,構建主鍵索引HT樹內存索引結構,并將其持久化到磁盤上;該方法包括以下步驟:
(1)初始化原始HBase數據表;
(2)通過協處理器對原始HBase數據表的非主鍵初始化二級索引;
(3)當HBase數據表進行更新操作時,通過協處理器更新二級索引;
(4)構建內存索引結構;
(5)當數據表超過預分片大小時,對數據表進行分片操作;
(6)分片后,初始化二級索引,并構建對應的內存索引結構;
(7)將構建的內存索引通過內存持久化方法持久化存儲到磁盤上。
優選地,所述步驟(2)中,通過對原始HBase數據表的非主鍵和主鍵建立組合關系,確保建立二級索引時主鍵的唯一性,以支持二級索引的創建。保證索引文件和主表在同一個Regionserver上,這樣可以保證在需要使用索引文件時只需與RegionServer建立一次連接就可以完成,提高了速度。
優選地,所述步驟(3)中,在數據表更新時,通過協處理器對這些變化進行監測,并將此時的二級索引實時更新。在更新操作未完成時,監聽器將監聽到這一事件,從而不會調用相應更新方法,索引邏輯將無法完成,保證了索引與原數據表的一致性與事件性,不會出現索引與原數據表無法匹配的情況。
優選地,所述步驟(4)中,在二級索引構建完成后,對其主鍵建立HT樹索引結構,提高對二級索引的檢索速度。通過HT樹索引,可以極大提高索引的檢索速度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010836573.3/2.html,轉載請聲明來源鉆瓜專利網。





