[發明專利]一種高效清理Hbase時序數據的方法、系統在審
| 申請號: | 201711143374.9 | 申請日: | 2017-11-17 |
| 公開(公告)號: | CN108153805A | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 李坤祥;周保群;黃春豪;葉梅霞 | 申請(專利權)人: | 廣東睿江云計算股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 佛山市禾才知識產權代理有限公司 44379 | 代理人: | 史亮亮 |
| 地址: | 528000 廣東省佛山市禪城區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 時序數據 搜索引擎 記錄 高效清理 寫入 刪除 集合 讀取 分布式消息 時間區間 時間段 寫數據 集群 主鍵 隊列 耗時 | ||
1.一種高效清理Hbase時序數據的方法,包括Hbase、Hbase一行記錄的主鍵rowkey、分布式消息隊列集群kafka、程序a、程序b和快速搜索引擎,其特征在于:包括時序數據寫入的過程和清理時序數據的過程;
寫入時序數據過程:
步驟一:所述程序a向所述Hbase寫入數據并生成記錄,該記錄為所述rowkey和時間的對應關系,然后將這個記錄寫到所述kafka的消息隊列中;
步驟二:在所述快速搜索引擎上創建索引,所述rowkey以時間做所述索引;
步驟三:監聽所述kafka的所述程序b將所述kafka的消息隊列中的記錄提取出來并寫到所述快速搜索引擎上,所述快速搜素引擎上將該記錄以索引的形式存儲;
清理時序數據的過程:
步驟A:從所述快速搜索引擎上查找出需要清理的時序數據的時間段,根據時間段查找出以這個時間段為索引的rowkey集合;
步驟B:將所述rowkey集合分成多個子集,根據所述rowkey集合的子集刪除所述Hbase里的數據;
步驟C:遍歷完整個所述rowkey集合,將所述rowkey集合里的所有子集在所述Hbase里的數據刪除完;
步驟D:刪除所述快速搜索引擎上的所述rowkey集合。
2.根據權利要求1所述一種高效清理Hbase時序數據的方法,其特征在于:
包括根據rowkey集合刪除Hbase里的數據的過程:
步驟b1:所述快速搜索引擎根據所述rowkey集合向所述Hbase提出刪除請求;
步驟b2:所述Hbase接收所述快速搜索引擎發出的刪除請求,并根據所述rowkey集合查找到所述Hbase里的數據,然后刪除數據;
步驟b3:所述Hbase刪除數據后,向所述快速搜索引擎返回刪除完畢的信息,所述快速搜索引擎接收到刪除完畢的信息后,刪除所述rowkey集合。
3.根據權利要求1所述一種高效清理時序數據的方法,其特征在于:
包括遍歷整個rowkey集合的過程:
步驟C1:將整個所述rowkey集合分成多個子集,并進行遍歷;
步驟C2:判斷子集是否符合遍歷條件,若是,則便刪除所述Hbase里子集對應的數據;
步驟C3:整個所述rowkey集合遍歷完成,刪除整個所述rowkey集合。
4.一種高效清理Hbase時序數據方法的系統,包括Hbase、Hbase一行記錄的主鍵rowkey、分布式消息隊列集群kafka、程序a、程序b和快速搜索引擎,其特征在于:時序數據寫入模塊,用于寫入時序數據;
所述程序a向所述Hbase寫入數據并生成記錄,該記錄為所述rowkey和時間的對應關系,然后將這個記錄寫到所述kafka的消息隊列中;
在所述快速搜索引擎上創建索引,所述rowkey以時間做所述索引;
監聽所述kafka的所述程序b將所述kafka的消息隊列中的記錄提取出來并寫到所述快速搜索引擎上,所述快速搜素引擎上將該記錄以索引的形式存儲;
時序數據清理模塊,用于清理時序數據;
從所述快速搜索引擎上查找出需要清理的時序數據的時間段,根據時間段查找出以這個時間段為索引的rowkey集合;
將所述rowkey集合分成多個子集,根據所述rowkey集合的子集刪除所述Hbase里的數據;
遍歷完整個所述rowkey集合,將所述rowkey集合里的所有子集在所述Hbase里的數據刪除完;
刪除所述快速搜索引擎上的所述rowkey集合。
5.根據權利要求4所述一種高效清理Hbase時序數據方法的系統,其特征在于:包括刪除Hbase里的數據模塊,根據rowkey集合刪除Hbase里的數據;
所述快速搜索引擎根據所述rowkey集合向所述Hbase提出刪除請求;
所述Hbase接收所述快速搜索引擎發出的刪除請求,并根據所述rowkey集合查找到所述Hbase里的數據,然后刪除數據;
所述Hbase刪除數據后,向所述快速搜索引擎返回刪除完畢的信息,所述快速搜索引擎接收到刪除完畢的信息后,刪除所述rowkey集合。
6.根據權利要求4所述一種高效清理Hbase時序數據方法的系統,其特征在于:包括遍歷模塊,用于遍歷rowkey集合;
將整個所述rowkey集合分成多個子集,并進行遍歷;
判斷子集是否符合遍歷條件,若是,則便刪除所述Hbase里子集對應的數據;
整個所述rowkey集合遍歷完成,刪除整個所述rowkey集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東睿江云計算股份有限公司,未經廣東睿江云計算股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711143374.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種對稱分布式文件系統的元數據日志更新方法
- 下一篇:數據遷移





