[發明專利]支持多數據庫引擎的數據生命周期管理的實現方法有效
| 申請號: | 201910119266.0 | 申請日: | 2019-02-18 |
| 公開(公告)號: | CN109815219B | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 劉欣然;張鴻;馬秉楠;呂雁飛;惠榛;孟憲文 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F16/22 |
| 代理公司: | 工業和信息化部電子專利中心 11010 | 代理人: | 李勤媛 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 支持 多數 引擎 數據 生命周期 管理 實現 方法 | ||
1.一種支持多數據庫引擎的數據生命周期管理的實現方法,其特征在于,包括:
通過Hive MetaStore服務,創建具有生命周期的依賴Hive元數據的Hive表、HBase表和ElasticSearch表,其中,Hive表包含有各字段信息以及建表元數據的TBLPROPERTIES信息,建表元數據的TBLPROPERTIES信息中包括生命周期配置信息,所述生命周期配置信息具體包括:數據的存儲方式,數據的生命周期,數據到達生命周期后需要進行操作,和如果數據過期后要進行數據遷移的目的表路徑;
對于HBase數據庫引擎,在Hadoop集群HDFS文件系統層,指定SSD盤和HDD盤的訪問目錄,基于該Hadoop集群分別啟動兩個HBase集群,設置SSD盤目錄的HBase集群作為存放熱點數據的HBase集群,設置HHD盤目錄的集群作為存放冷數據的HBase集群;對于ElasticSearch數據庫引擎,分別安裝兩個ElasticSearch集群,一個集群的數據存儲路徑設置為SSD盤的路徑,作為存放熱點數據的ElasticSearch集群;一個集群數據存儲路徑設置為HDD盤的路徑,作為存放冷數據的ElasticSearch集群;
定期調用生命周期管理服務,讀取Hive MetaStore服務中表元數據的生命周期信息和分區信息,計算是否存在過期的分區數據,如果存在,根據表元數據信息判斷表的類型,依據不同表數據存儲類型,調用相應的數據生命周期管理服務,根據表元數據中規則,自動對過期的數據進行刪除或遷移。
2.如權利要求1所述的方法,其特征在于,通過Hive MetaStore服務,創建具有生命周期的依賴Hive元數據的Hive表、HBase表和ElasticSearch表具體包括:
對于Hive數據倉庫,通過Hive MetaStore服務創建Hive表;
對于HBase數據表,通過Hive建表語句將Hive MetaStore服務中的建表信息關聯HBase表,通過Spark服務讀取Hive MetaStore的建表元數據進行HBase表的查詢,其中,建表元數據的TBLPROPERTIES信息中的`dl.colddir`配置指定了存放冷數據的`hamster.node`,并設置有該表所對應的HBase集群信息`hmster.node`;
對于ElasticSearch數據表,通過Hive建表語句將Hive MetaStore中的建表信息關聯ElasticSearch表,通過Spark服務讀取Hive MetaStore的建表元數據進行ElasticSearch表的查詢,其中,建表元數據的TBLPROPERTIES信息中的`dl.colddir`配置指定了存放冷數據的`es.node`,并設置有該表所對應的ElasticSearch集群信息`es.node`。
3.如權利要求1所述的方法,其特征在于,調用相應的數據生命周期管理程序,根據表元數據中規則,自動對過期的數據進行刪除或遷移具體包括:
對Hive表進行生命周期管理,如果該分區表的數據沒有被占用則進行過期后操作類型的判斷,如果為刪除過期數據,則將該分區的數據直接刪除,并更新表的分區元數據信息;如果為遷移過期數據,則將數據遷移至冷數據表,如果冷數據表不存在,則根據表的元數據信息首先創建冷數據表,然后進行數據遷移,并更新原表和冷數據表的分區元數據信息;
對于HBase表進行生命周期管理,如果該分區表的數據沒有被占用則進行過期后操作類型的判斷,如果為刪除過期數據,則將該分區的數據直接刪除,并刪除HBase1集群中的相應表,更新表的分區元數據信息;如果為遷移過期數據,則將數據遷移至HBase2集群中,并將遷移的分區加冷數據標識后綴,更新分區元數據信息;
對于ElasticSearch表進行生命周期管理,如果該分區表的數據沒有被占用則進行過期后操作類型的判斷,如果為刪除過期數據,則將該分區的數據直接刪除,并刪除ES1集群中的相應索引,更新表的分區元數據信息;如果為遷移過期數據,則將數據遷移至ES2集群中,并將遷移的分區加冷數據標識后綴,更新分區元數據信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心,未經國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910119266.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





