[發明專利]一種HDFS文件自動清理方法、裝置及存儲介質在審
| 申請號: | 202110045188.1 | 申請日: | 2021-01-13 |
| 公開(公告)號: | CN112800010A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 于勝強;史寧寧;戶蕾蕾 | 申請(專利權)人: | 新華三大數據技術有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F16/11;G06F16/182 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450000 河南省鄭州市鄭州高*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 hdfs 文件 自動 清理 方法 裝置 存儲 介質 | ||
1.一種HDFS文件自動清理方法,其特征在于,該方法應用于HDFS中的名稱節點NameNode,所述方法包括:
當接收到為HDFS文件新增用于存儲文件存活時間的擴展屬性的請求時,從元數據中獲取文件的文件標識,并根據所述擴展屬性中的文件存活時間計算文件刪除截止時間戳,將所述文件的文件標識及文件刪除截止時間戳記錄到文件存活時間記錄表中;
按預設掃描周期掃描所述文件存活時間記錄表,當發現超過文件刪除截止時間戳的記錄時,基于該記錄中的文件標識,通過元數據命名空間樹獲取對應的文件名,根據文件名刪除對應的文件。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
當所述NameNode中的元數據管理服務啟動時,根據元數據命名空間樹完成對HDFS上所有文件的遍歷,從中獲取所有文件的所述擴展屬性,完成所述文件存活時間記錄表的初始化。
3.根據權利要求1述的方法,其特征在于,
所述文件存活時間記錄表為位于內存中的哈希表。
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
當接收到刪除HDFS文件的請求時,判斷請求刪除的文件是否有用于存儲文件存活時間的擴展屬性,若有所述擴展屬性則刪除所述文件存活時間記錄表中對應的記錄。
5.根據權利要求1所述的方法,其特征在于,
當接收到查詢HDFS文件的存儲時間的請求時,通過HDFS文件系統提供的應用編程接口API獲取所述擴展屬性及從所述文件存活時間記錄表獲取文件刪除截止時間戳返回給查詢端。
6.一種HDFS文件自動清理裝置,其特征在于,裝置200應用于HDFS中的名稱節點NameNode,該裝置包括:
屬性添加模塊,用于在接收到為HDFS文件新增用于存儲文件存活時間的擴展屬性的請求時,從元數據中獲取文件的文件標識,并根據所述擴展屬性中的文件存活時間計算文件刪除截止時間戳,將所述文件的文件標識及文件刪除截止時間戳記錄到文件存活時間記錄表中;
自動清理模塊,用于按預設掃描周期掃描所述文件存活時間記錄表,當發現超過文件刪除截止時間戳的記錄時,基于該記錄中的文件標識,通過元數據命名空間樹獲取對應的文件名,根據文件名刪除對應的文件。
7.根據權利要求6所述的裝置,其特征在于,所述裝置還包括:
初始化模塊,用于在所述NameNode中的元數據管理服務啟動時,根據元數據命名空間樹完成對HDFS上所有文件的遍歷,從中獲取所有文件的所述擴展屬性,完成所述文件存活時間記錄表的初始化。
8.根據權利要求6所述的裝置,其特征在于,所述裝置還包括:
刪除模塊,用于在接收到刪除HDFS文件的請求時,判斷請求刪除的文件是否有用于存儲文件存活時間的擴展屬性,若有所述擴展屬性則刪除所述文件存活時間記錄表中對應的記錄。
9.根據權利要求6所述的裝置,其特征在于,所述裝置還包括:
屬性獲取模塊,用于在接收到查詢HDFS文件的存儲時間的請求時,通過HDFS文件系統提供的應用編程接口API獲取所述擴展屬性及從所述文件存活時間記錄表獲取文件刪除截止時間戳返回給查詢端。
10.一種存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序當被處理器執行時實施如權利要求1至5中任一項所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數據技術有限公司,未經新華三大數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110045188.1/1.html,轉載請聲明來源鉆瓜專利網。





