[發(fā)明專利]數(shù)據(jù)清理方法、裝置和服務(wù)器在審
| 申請?zhí)枺?/td> | 202110890116.7 | 申請日: | 2021-08-04 |
| 公開(公告)號: | CN113485999A | 公開(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計)人: | 王備;王偉;沈棟;聶冬琴 | 申請(專利權(quán))人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/28 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 劉熔;趙平 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 清理 方法 裝置 服務(wù)器 | ||
本說明書提供了數(shù)據(jù)清理方法、裝置和服務(wù)器。基于該方法,可以先獲取用戶基于預(yù)設(shè)的設(shè)置規(guī)則自定義的目標配置參數(shù);根據(jù)目標配置參數(shù),通過與目標數(shù)據(jù)庫的連接,獲取相應(yīng)的元數(shù)據(jù)信息;根據(jù)預(yù)設(shè)的生成規(guī)則、目標配置參數(shù)和元數(shù)據(jù)信息,生成目標備份程序文件和目標清理程序文件;再根據(jù)預(yù)設(shè)的均衡拆分規(guī)則,先調(diào)用多個線程并行執(zhí)行所述目標備份程序文件,以對所述目標數(shù)據(jù)進行磁帶備份;進而根據(jù)預(yù)設(shè)的均衡拆分規(guī)則,調(diào)用多個線程并行執(zhí)行所述目標清理程序文件,以刪除清理目標數(shù)據(jù)庫中的目標數(shù)據(jù)。通過引入并綜合利用用戶自定義目標配置參數(shù)和動態(tài)采集的元數(shù)據(jù)信息,能靈活、高效地實現(xiàn)針對Hive數(shù)據(jù)倉庫中數(shù)據(jù)的自動備份和清理。
技術(shù)領(lǐng)域
本說明書屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及數(shù)據(jù)清理方法、裝置和服務(wù)器。
背景技術(shù)
在大數(shù)據(jù)處理技術(shù)領(lǐng)域,為了能應(yīng)對處理大規(guī)模的海量業(yè)務(wù)數(shù)據(jù),通常會采用基于分布式系統(tǒng)的Hive數(shù)據(jù)倉庫來代替?zhèn)鹘y(tǒng)的數(shù)據(jù)倉庫,以對所接入的業(yè)務(wù)數(shù)據(jù)進行存儲和管理。
其中,上述Hive數(shù)據(jù)倉庫的底層大多是基于Hadoop分布式文件系統(tǒng)。而受限于Hadoop分布式文件系統(tǒng)的系統(tǒng)特性,基于現(xiàn)有的數(shù)據(jù)清理方法,往往無法靈活、高效地對數(shù)據(jù)倉庫中數(shù)據(jù)自動進行較為精細的清理,導(dǎo)致用戶往往需要耗費大量處理時間和處理資源來清理、維護數(shù)據(jù)倉庫中存儲的數(shù)據(jù)。
針對上述問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本說明書提供了一種數(shù)據(jù)清理方法、裝置和服務(wù)器,能充分兼顧并利用Hive數(shù)據(jù)倉庫的系統(tǒng)特性,靈活、高效地實現(xiàn)針對Hive數(shù)據(jù)倉庫中數(shù)據(jù)的自動備份和清理。
本說明書實施例提供了一種數(shù)據(jù)清理方法,包括:
獲取目標配置參數(shù);其中,所述目標配置參數(shù)至少包含有與待清理的目標數(shù)據(jù)關(guān)聯(lián)的目標數(shù)據(jù)庫名、目標數(shù)據(jù)表名和目標字段;目標數(shù)據(jù)庫包括基于Hadoop的Hive數(shù)據(jù)倉庫;所述目標配置參數(shù)為基于預(yù)設(shè)的設(shè)置規(guī)則自定義的配置參數(shù);
根據(jù)所述目標配置參數(shù),通過與目標數(shù)據(jù)庫的連接,獲取相應(yīng)的元數(shù)據(jù)信息;
根據(jù)預(yù)設(shè)的生成規(guī)則、所述目標配置參數(shù)和所述元數(shù)據(jù)信息,生成目標備份程序文件和目標清理程序文件;
根據(jù)預(yù)設(shè)的均衡拆分規(guī)則,調(diào)用多個線程并行執(zhí)行所述目標備份程序文件,以對所述目標數(shù)據(jù)進行磁帶備份;
根據(jù)預(yù)設(shè)的均衡拆分規(guī)則,調(diào)用多個線程并行執(zhí)行所述目標清理程序文件,以刪除所述目標數(shù)據(jù)庫中的目標數(shù)據(jù)。
在一些實施例中,所述目標配置參數(shù)還包含有與目標數(shù)據(jù)相關(guān)的目標系統(tǒng)名、歸檔周期類型、頻率類型、偏移量參數(shù)。
在一些實施例中,在獲取目標配置參數(shù)之后,所述方法還包括:根據(jù)預(yù)設(shè)的校驗規(guī)則,對目標配置參數(shù)進行預(yù)設(shè)的校驗處理。
在一些實施例中,根據(jù)預(yù)設(shè)的生成規(guī)則、所述目標配置參數(shù)和所述元數(shù)據(jù)信息,生成目標備份程序文件和目標清理程序文件,包括:
獲取并根據(jù)歸檔周期類型,確定所述目標數(shù)據(jù)是否屬于分區(qū)數(shù)據(jù);
在確定所述目標數(shù)據(jù)屬于分區(qū)數(shù)據(jù)的情況下,根據(jù)元數(shù)據(jù)信息生成針對目標數(shù)據(jù)的備份語句和清理語句;
根據(jù)所述備份語句,生成目標備份程序文件;根據(jù)所述清理語句,生成目標清理程序文件。
在一些實施例中,在獲取并根據(jù)歸檔周期類型,確定所述目標數(shù)據(jù)是否屬于分區(qū)數(shù)據(jù)之前,所述方法還包括:
根據(jù)目標配置參數(shù),檢測當前的執(zhí)行時間是否與頻率類型、偏移量參數(shù)匹配;
在確定當前的執(zhí)行時間與頻率類型、偏移量參數(shù)匹配的情況下,根據(jù)目標配置參數(shù)和元數(shù)據(jù)信息,核對目標數(shù)據(jù)庫、目標數(shù)據(jù)表,以及目標字段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國工商銀行股份有限公司,未經(jīng)中國工商銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110890116.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





