[發明專利]一種基于文件訪問熱度的HDFS副本管理方法有效

申請號：	201810255610.4	申請日：	2018-03-27
公開（公告）號：	CN108363643B	公開（公告）日：	2021-06-15
發明（設計）人：	代鈺;楊雷;郝琪;李學學;張斌	申請（專利權）人：	東北大學
主分類號：	G06F11/14	分類號：	G06F11/14
代理公司：	沈陽東大知識產權代理有限公司 21109	代理人：	李運萍
地址：	110819 遼寧***	國省代碼：	遼寧;21
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于文件訪問熱度 hdfs 副本管理方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提出一種基于文件訪問熱度的HDFS副本管理方法，基于文件訪問熱度計算文件的副本數量；基于多文件訪問關聯性對預測的熱點文件進行動態副本放置；據需要刪除副本的文件對副本進行刪除操作；本發明方法利用時間序列分析方法對文件訪問熱度進行預測，并給出文件訪問熱度的計算公式以及副本個數的計算公式，能夠支持動態熱點文件副本個數的調整，解決熱點文件的訪問瓶頸的問題，提高集群的服務效率。

技術領域

本發明屬于大數據分析與數據挖掘技術領域，具體涉及一種基于文件訪問熱度的HDFS副本管理方法。

背景技術

隨著Web技術的發展，大量數據也隨之產生，面對海量數據的存儲和分析等相關問題，云存儲、云計算、大數據分析和數據挖掘等相關概念也被相應提出。目前來說，在大數據背景下，Apache Hadoop已經成為了分布式大數據處理技術的參考框架，能夠有效提高海量數據處理的效率。在Hadoop框架中，數據副本管理技術一直以來都是研究的熱點與難點。盡管在HDFS數據副本管理方面目前已經開展了大量的研究工作，但是如何設置合適的副本個數以適應文件訪問熱度的變化，同時如何放置副本以優化集群負載仍是需要研究并解決的關鍵問題。

針對HDFS的副本管理問題，有兩大關鍵點很值得研究，一是HDFS上文件的副本個數的問題，二是其上文件的副本放置的問題。HDFS默認的副本個數并不適用于所有應用，沒有考慮到文件訪問是一個變化的過程，某些文件僅在某一個時間段內會發生訪問量突增或者突降的情況。HDFS默認的副本放置方法是在靠近客戶端的機架上選擇兩個節點，其他機架選擇一個DataNode節點進行文件的副本放置，但是這些方法并沒有根據具體的應用，考慮到文件之間的Join訪問關聯性問題和節點上文件訪問熱度的負載情況，這些都嚴重影響集群的性能。對于以上問題，本發明展開了對HDFS副本管理方法的研究，提出了基于文件訪問熱度的HDFS副本管理方法及工具。并且開展了一系列的實驗，對所提出的方法和相關算法進行了測試，實驗結果表明本發明提出的方法使集群的并發性、任務執行的效率和集群的負載均衡情況上都有了很大的提高。

發明內容

針對現有技術的不足，本發明提出一種基于文件訪問熱度的HDFS副本管理方法，包括以下步驟：

步驟1：基于文件訪問熱度計算文件的副本數量；

步驟1.1：根據文件訪問日志表，統計一段時間間隔time內的文件訪問次數，確定文件訪問熱度；

所述文件f_v的訪問熱度公式如下所示：

其中，為一段時間間隔time內的文件f_v訪問次數，λ為訪問次數的經驗臨界值。

步驟1.2：建立矩陣形式的時間序列和文件訪問熱度的對應關系的時間序列文件A；

所述時間序列文件A的邏輯結構表示為Log＝＜row，T，D，f_v＞，其中，T＝{t₁，t₂，t₃，...t_x}為時間序列，x為訪問熱度觀測時刻，row為時間序列文件中的行號，為文件訪問熱度集合，f_v為文件名稱。

步驟1.3：逐行提取時間序列文件A中文件f_v的訪問熱度，進行時間序列分析，對時間序列進行單根檢驗，判斷所提取的文件的訪問熱度序列是否穩定，若是，執行步驟1.4，否則，執行步驟1.5；

步驟1.4：對平穩的時間序列進行ARMA模型匹配定階，執行步驟1.6；

步驟1.5：對非穩定的時間序列進行ARIMA模型匹配定階，執行步驟1.6；

步驟1.6：采用時間序列方法預測下一時刻文件f_v的訪問熱度；