[發明專利]一種HDFS文件自動清理方法、裝置及存儲介質在審
| 申請號: | 202110045188.1 | 申請日: | 2021-01-13 |
| 公開(公告)號: | CN112800010A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 于勝強;史寧寧;戶蕾蕾 | 申請(專利權)人: | 新華三大數據技術有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F16/11;G06F16/182 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450000 河南省鄭州市鄭州高*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 hdfs 文件 自動 清理 方法 裝置 存儲 介質 | ||
本公開提供了一種HDFS文件自動清理方法、裝置及存儲介質,用于解決HDFS中無法基于生存時間對文件進行自動清理的技術問題。本公開為HDFS文件增加存儲文件存活時間的擴展屬性,根據文件存活時間計算文件刪除截止時間戳,通過文件存活時間記錄表記錄所有文件的文件標識和文件刪除截止時間戳,通過周期性的清理操作自動清理超過存活時間的文件。本公開解決了HDFS中對文件沒有生命周期管理的缺陷,避免了一些消費性、無價值、歷史歸檔等冷數據一直占用寶貴的存儲資源,節省了人工處理刪除數據的成本,提高了數據處理刪除的效率和存儲空間的價值。
技術領域
本公開涉及分布式存儲及大數據技術領域,尤其涉及一種HDFS文件自動清理方法、裝置及存儲介質。
背景技術
HDFS(Hadoop Distributed File System,Hadoop分布式文件系統)是一個高度容錯性的分布式存儲系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,適合那些有著超大數據集(large data set)的應用程序。
HDFS采用分而治之的設計思想,將大文件、大批量文件,分布式存放在大量服務器上,以便于采取分而治之的方式對海量數據進行運算分析。在大數據生態系統中為各類分布式運算框架(如:MapReduce,Spark,tez等)提供數據存儲服務。
HDFS架構中,名稱節點NameNode負責文件和目錄的創建、刪除和重命名等,同時管理數據節點與文件塊的映射關系。數據節點DataNode負責數據的存儲和讀取。
客戶端讀取數據會先訪問名稱節點,獲取數據塊對應數據節點的位置,進而讀取數據,寫入數據也會由名稱節點分配存儲位置,再向對應數據節點寫入數據。
由于HDFS分布式文件系統廣泛的使用場景,里面往往存放著各式各樣的文件如:文本文件、二進制文件、序列化文件、面向行列存儲格式的數據文件以及視頻、圖片、資料文檔等多媒體文件,其中不乏有一些消費性的、無價值的、歷史歸檔的冷數據,一直在占用著寶貴的存儲資源。雖然可以通過實施使用規范來達到一定的目的,但是人工處理冷數據的成本非常高,而且效率非常低下。
HDFS提供了類似Windows文件系統的回收站,刪除的文件或目錄會臨時移動到當前操作用戶的回收站目錄中如:/user/hdfs/.Trash/Current中,NameNode服務中有專門的垃圾清理守護線程TrashEmptier服務定期對回收站中的Current目錄以重命名為時間戳(格式為yyMMddHHmmss)的方式創建檢查點checkpoint,并刪除之前創建的歷史檢查點,來達到定期清理刪除垃圾回收站中文件或目錄的目的。
目前該垃圾清理守護線程TrashEmptier服務在社區發布版本中是不啟動的,可以通過配置fs.trash.interval的值大于0進行啟用如:fs.trash.interval=30(單位:分鐘),即每30分鐘會把HDFS文件系統中所有用戶的垃圾回收站中當前的文件目錄Current重命名來創建檢查點,并把之前創建的歷史檢查點給清理刪除掉。
HDFS也提供了手動執行shell命令:hadoop fs-expunge的方式來清理回收站中歷史檢查點數據的方法,但是此方法僅適用當前操作用戶的垃圾回收站。
然而,HDFS垃圾回收站僅對已經刪除(邏輯刪除)的文件或目錄進行定期清理,需要對文件或目錄進行事先邏輯刪除,才能夠使用到HDFS垃圾回收站。此外,垃圾回收站無法實現根據數據的冷熱或生存時間進行自動清理的功能。
發明內容
有鑒于此,本公開提供一種HDFS文件自動清理方法、裝置及存儲介質,用于解決HDFS中無法基于生存時間對文件進行自動清理的技術問題。
圖1為本公開提供的HDFS文件自動清理方法的步驟流程圖,該方法應用于HDFS中的名稱節點NameNode,該方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數據技術有限公司,未經新華三大數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110045188.1/2.html,轉載請聲明來源鉆瓜專利網。





