[發明專利]一種高效清理Hbase時序數據的方法、系統在審
| 申請號: | 201711143374.9 | 申請日: | 2017-11-17 |
| 公開(公告)號: | CN108153805A | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 李坤祥;周保群;黃春豪;葉梅霞 | 申請(專利權)人: | 廣東睿江云計算股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 佛山市禾才知識產權代理有限公司 44379 | 代理人: | 史亮亮 |
| 地址: | 528000 廣東省佛山市禪城區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 時序數據 搜索引擎 記錄 高效清理 寫入 刪除 集合 讀取 分布式消息 時間區間 時間段 寫數據 集群 主鍵 隊列 耗時 | ||
一種高效清理Hbase時序數據的方法、系統,包括Hbase、Hbase一行記錄的主鍵rowkey、分布式消息隊列集群kafka、程序a、程序b和快速搜索引擎,包括時序數據的寫入和時序數據的清理;寫入時序數據的過程:程序a往Hbase里面寫數據,生成時間與rowkey的記錄,然后將該記錄寫到kafka上,程序b從kafka上讀取該記錄并寫入快速搜索引擎;清理時序數據的過程:先從搜索引擎查出時間區間內的rowkey集合,根據rowkey集合精確刪除hbase里的記錄,再刪除搜索引擎里該時間段內的記錄。本發明解決清理時序數據時,耗時長的問題,實現高效清理時序數據的效果。
技術領域
本發明涉及Hbase數據處理領域,尤其涉及一種高效清理Hbase時序數據的方法、系統。
背景技術
Hbase是一個開源的、分布式、多版本。面向列儲存模型的數據庫,它采用key-Value格式來存儲數據,rowkey是Hbase一行記錄的主鍵,Hbase加載數據時,是根據rowkey的二進制順序從小到大進行的。Hbase讀取記錄只能按照rowkey掃描,一次rowkey需要根據業務來設計以利用其存儲排序特性提高性能。在存儲時序數據的使用中,rowkey的設計往往不能滿足各方面的要求,比如清理過期數據耗時太長而影響到線上業務的穩定性。
在現有技術中,清理過期數據,需要全表掃描rowkey中的時間部分,把符合條件的rowkey記錄下來,然后進行批量處理。在數據量大的時候耗時太長,占用大量系統資源并且影響線上系統的穩定性。
發明內容
本發明的目的在于提出一種高效清理Hbase時序數據的方法、系統,以解決清理時序數據時,耗時長的問題,實現高效清理時序數據的效果。
為達此目的,本發明采用以下技術方案:
一種高效清理Hbase時序數據的方法,包括Hbase、Hbase一行記錄的主鍵rowkey、分布式消息隊列集群kafka、程序a、程序b和快速搜索引擎,包括時序數據寫入的過程和清理時序數據的過程;
寫入時序數據過程:
步驟一:所述程序a向所述Hbase寫入數據并生成記錄,該記錄為所述rowkey和時間的對應關系,然后將這個記錄寫到所述kafka的消息隊列中;
步驟二:在所述快速搜索引擎上創建索引,所述rowkey以時間做所述索引;
步驟三:監聽所述kafka的所述程序b將所述kafka的消息隊列中的記錄提取出來并寫到所述快速搜索引擎上,所述快速搜素引擎上將該記錄以索引的形式存儲;
清理時序數據的過程:
步驟A:從所述快速搜索引擎上查找出需要清理的時序數據的時間段,根據時間段查找出以這個時間段為索引的rowkey集合;
步驟B:將所述rowkey集合分成多個子集,根據所述rowkey集合的子集刪除所述Hbase里的數據;
步驟C:遍歷完整個所述rowkey集合,將所述rowkey集合里的所有子集在所述Hbase里的數據刪除完;
步驟D:刪除所述快速搜索引擎上的所述rowkey集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東睿江云計算股份有限公司,未經廣東睿江云計算股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711143374.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種對稱分布式文件系統的元數據日志更新方法
- 下一篇:數據遷移





