[發明專利]一種基于HBase的實時動態數據管理系統在審
| 申請號: | 201811385057.2 | 申請日: | 2018-11-20 |
| 公開(公告)號: | CN109582643A | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 張衛山;任鵬程;房凱 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13;G06F16/182;G06F16/2453;G06F16/2455 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266580 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據管理系統 實時動態 復合索引 海量存儲 查詢 寫入 一致性哈希算法 讀取 數據存儲機制 多線程技術 緩沖區結構 結構化數據 并行存儲 并行機制 查詢優化 存儲模型 讀取性能 海量數據 環境需求 緩存數據 結構數據 索引緩存 優化設計 表結構 持久化 高動態 實時性 索引表 映射 多線 多源 行鍵 隊列 并發 并行 存儲 緩解 優化 管理 | ||
本發明提出一種基于HBase的實時動態數據管理系統,包括數據的讀取優化、復合索引機制以及并行查詢優化。該發明設計基于HDFS和HBase的持久化數據存儲機制,解決多結構數據海量存儲問題;基于HBase表結構設計復合索引存儲模型,實現索引緩存地址的映射管理以及緩存數據存儲的索引表設計;基于多源緩沖區結構對數據進行隊列劃分,實現并行存儲,并結合一致性哈希算法、多線程技術、行鍵優化設計等策略緩解海量數據并發寫入壓力;基于HBase查詢實執行模塊與多線技術,設計多查詢并行機制,提高查詢速度。該發明的基于HBase的實時動態數據管理系統有效提升數據寫入與讀取性能,解決多結構化數據海量存儲,滿足高動態、實時性的環境需求。
技術領域
本發明涉及大數據存儲、數據搜索領域,具體涉及到一種基于HBase的實時動態數據管理系統。
背景技術
HBase作為基于大數據的數據庫對于數據的管理服務效率是非常重要的。
HBase作為底層數據庫,首先必須保證對于各類數據的存儲效率,以適應不同環境的不同存儲需求。如何利用多源緩沖區結構對不同類型的流數據進行隊列劃分,并結合哪些策略可以將數據并行存儲到HBase集群服務器中,從而緩解海量數據與寫入并發壓力,這是基于HBase的實時動態數據管理系統涉及面臨的挑戰。其次,HBase的索引機制也不完善,無法滿足實時環境的高效查詢請求。
HBase的列存儲系統的查詢優化主要通過使用列存儲、數據壓縮、直接操作壓縮數據、延遲物化、隱形連接等技術來提高查詢效率。但其都是基于單線程的查詢引擎,不能充分利用多核處理器資源。如何利用多線程技術實現多查詢并行化,也給基于HBase的實時動態數據管理系統的設計帶來了挑戰。
發明內容
為解決現有技術中的缺點和不足,本發明提出了一中基于HBase的實時動態數據管理系統,優化數據存儲、查詢性能。
本發明的技術方案為:
一種基于HBase的實時動態數據管理系統,數據存儲按邏輯劃分,分為以文件形式和以HBase表結構形式存儲。前者主要針對于結構化的文件;非結構化的數據使用HBase表存儲。文件形式的存儲包括索引文件和小文件的存儲;HBase存儲包括高維特征的存儲、正排文件存儲和緩存數據的存儲。索引文件用Lucene對其文本數據建立倒排;正排文件,采用HBase表結構來存儲,并存儲器TD/IDF值;小文件基于二進制序列化數據流合并為一個大文件。
復合索引存儲模型分為兩部分:第一部分是基于磁盤的數據存儲,使用分布式順序索引存儲模型,實現索引緩存的存儲、更新以及地址映射;第二部分是基于內存的索引緩存,利用內存隨機訪問迅速的特性存儲訪問頻繁的索引數據,使用分布式哈希存儲模型,構建索引表以及索引范圍表。
利用多源緩沖區結構對不同類型的流數據進行隊列劃分,并結合一致性哈希算法、多線程技術、行鍵優化設計等策略將數據并行存儲到HBase集群服務器中。HBase并行查詢分為四個方面:I/O并行,多查詢并行,操作節點并行以及用戶并行。并且利用JAVA多線程技術,實現實時流數據多查詢并行。
本發明的有益效果:
(1)解決多結構海量數據的存儲問題,緩解海量數據并發寫入壓力,加快多結構海量數據寫入寫入速度。
(2)優化HBase索引模型設計,優化多查詢并行化性能,提高數據查詢效率,滿足高動態、實施性的數據查詢需求。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明系統邏輯框架圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811385057.2/2.html,轉載請聲明來源鉆瓜專利網。





