[發明專利]一種文件清理的方法和裝置有效
| 申請號: | 201710605799.0 | 申請日: | 2017-07-24 |
| 公開(公告)號: | CN110019026B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 何林艷 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文件 清理 方法 裝置 | ||
本發明公開了文件清理的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:刪除Hive外部表,然后確定刪除所述Hive外部表對應的數據文件;根據預設的外部表結構信息表,獲取所述外部表對應的數據文件,以刪除所述對應的數據文件。該實施方式能夠在Hive外部表被刪除時,就會聯動的對關聯的數據文件進行處理。
技術領域
本發明涉及計算機技術領域,尤其涉及一種文件清理的方法和裝置。
背景技術
Hive開發是大數據開發必備技能,工程師只要進行數據開發就需要創建表來存儲數據。Hive上建表分為內部表和外部表,因開發需要或隨著需求業務的變化,之前創建的內部表或者外部表沒用了,工程師便會刪除表及相應的hdfs數據文件,避免Hive數據庫中存在大量的無用表。一般用drop命令刪除內部表的時候,對應的數據文件也刪除了,但用drop刪除外部表的時候,只是刪除了表結構即只是刪除了元數據,而沒用刪除相應的hdfs數據文件。在實際應用中,工程師經常會刪除表結構后并不會刪除相應的hdfs數據文件或者一些新手并不了解內外部表存在這樣的差異,根本不知道hdfs數據文件需要另外刪除。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:目前刪除無用hdfs數據文件是人工的方式處理:當發現集群存儲空間報警了,才會從一堆hdfs數據文件中手工刪除無用的。而且,表元數據一旦被刪除后,hdfs數據文件被遺留在集群里,等后續清理存儲空間時再來刪除就很難確定這些數據文件是否有用。即使明確了某些hdfs數據文件無用,還得另外執行命令刪除。
發明內容
有鑒于此,本發明實施例提供一種文件清理的方法和裝置,能夠快速、準確地刪除Hive外部表及其對應的數據文件。
為實現上述目的,根據本發明實施例的一個方面,提供了一種文件清理的方法,包括:刪除Hive外部表,然后確定刪除所述Hive外部表對應的數據文件;根據預設的外部表結構信息表,獲取所述外部表對應的數據文件,以刪除所述對應的數據文件;其中,所述的外部表結構信息表中存儲Hive外部表信息與數據文件信息的映射關系。
可選地,所述刪除Hive外部表之后,還包括:確定不刪除所述Hive外部表對應的數據文件;獲取刪除所述Hive外部表對應的數據文件的時間,然后將所述時間和所述Hive外部表存儲到配置表中;確認達到所述時間時,在所述配置表中獲取所述Hive外部表;然后根據預設的外部表結構信息表,獲取所述Hive外部表對應的數據文件,以刪除所述對應的數據文件;其中,所述的外部表結構信息表中存儲Hive外部表信息與數據文件信息的映射關系。
可選地,所述外部表結構信息表中還存儲Hive外部表信息與用戶信息的映射關系;確認達到所述時間之前,包括:確定當前時間與所述刪除數據文件的時間的差等于或小于預設的時間差,然后在所述配置表中獲取所述Hive外部表;根據預設的外部表結構信息表,獲取所述Hive外部表對應的用戶信息;監測所述用戶登錄,提示所述數據文件將在所述時間刪除。
可選地,獲取刪除所述Hive外部表對應的數據文件的時間之前,還包括:在所述的外部表結構信息表中,標記所述Hive外部表已經刪除。
可選地,還包括:監控所述外部表結構信息表,確定標記已經刪除的所述Hive外部表在所述配置表中沒有刪除對應數據文件的時間;將默認刪除時間和所述Hive外部表存儲到所述配置表中。
可選地,刪除所述對應的數據文件之后,還包括:刪除所述預設外部表結構信息表中的所述Hive外部表信息和對應的數據文件信息。
根據本發明實施例的另一個方面,還提供了一種文件清理的裝置,包括:外部表刪除模塊,用于刪除Hive外部表;判斷模塊,用于確定刪除所述Hive外部表對應的數據文件;數據文件刪除模塊,用于根據預設的外部表結構信息表,獲取所述外部表對應的數據文件,以刪除所述對應的數據文件;其中,所述的外部表結構信息表中存儲Hive外部表信息與數據文件信息的映射關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710605799.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種流數據處理方法和裝置
- 下一篇:一種文件夾命名的方法及終端





