[發明專利]一種基于文件訪問熱度的HDFS副本管理方法有效
| 申請號: | 201810255610.4 | 申請日: | 2018-03-27 |
| 公開(公告)號: | CN108363643B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 代鈺;楊雷;郝琪;李學學;張斌 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李運萍 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文件 訪問 熱度 hdfs 副本 管理 方法 | ||
1.一種基于文件訪問熱度的HDFS副本管理方法,其特征在于,包括以下步驟:
步驟1:基于文件訪問熱度計算文件的副本數量;
步驟1.1:根據文件訪問日志表,統計一段時間間隔time內的文件訪問次數,確定文件訪問熱度;
步驟1.2:建立矩陣形式的時間序列和文件訪問熱度的對應關系的時間序列文件A;
步驟1.3:逐行提取時間序列文件A中文件fv的訪問熱度,進行時間序列分析,對時間序列進行單根檢驗,判斷所提取的文件的訪問熱度序列是否穩定,若是,執行步驟1.4,否則,執行步驟1.5;
步驟1.4:對平穩的時間序列進行ARMA模型匹配定階,執行步驟1.6;
步驟1.5:對非穩定的時間序列進行ARIMA模型匹配定階,執行步驟1.6;
步驟1.6:采用時間序列方法預測下一時刻文件fv的訪問熱度;
步驟1.7:采用向上取整方式預測文件fv的副本個數當預測的文件的副本個數小于等于3時,保持該預測文件的副本數為3,若預測的文件的副本個數大于3時,增加該預測的文件的副本個數為
步驟1.8:若預測的文件的副本個數增加,則執行步驟2;否則,執行步驟3;
步驟2:基于多文件訪問關聯性對預測的熱點文件進行動態副本放置;
步驟2.1:根據文件訪問日志表,計算任意兩個文件fi和fj的訪問關聯度cor(fi,fj);
步驟2.2:以具有訪問關聯性的副本放置后總的通信代價最小、同一文件的副本放置在通信代價較大的節點上為優化目標,構建考慮多文件訪問關聯性的熱點文件動態副本放置問題的數學模型;
步驟2.3:基于改進遺傳算法求解熱點文件動態副本放置問題的數學模型,得到最優的副本放置方案Y;
步驟3:根據需要刪除副本的文件對副本進行刪除操作;
步驟3.1:根據需要刪除副本的文件V,通過文件信息表,獲得需要刪除副本的文件V所有不同副本的集合VRC;
步驟3.2:對集合VRC中的副本文件按照訪問熱度從低到高排序;
步驟3.3:刪除集合VRC中訪問熱度最低的文件副本;
步驟3.4:判斷目前集合VRC中的副本個數是否減少到所預測的副本個數,若是則停止;否則返回步驟3.3。
2.根據權利要求1所述的基于文件訪問熱度的HDFS副本管理方法,其特征在于,所述文件fv的訪問熱度公式如下所示:
其中,為一段時間間隔time內的文件fv訪問次數,λ為訪問次數的經驗臨界值。
3.根據權利要求1所述的基于文件訪問熱度的HDFS副本管理方法,其特征在于,所述時間序列文件A的邏輯結構表示為Log=row,T,D,fv,其中,T={t1,t2,t3,...tx}為時間序列,x為訪問熱度觀測時刻,row為時間序列文件中的行號,為文件訪問熱度集合,fv為文件名稱。
4.根據權利要求1所述的基于文件訪問熱度的HDFS副本管理方法,其特征在于,所述預測的文件fv的副本個數的計算公式如下所示:
其中,為經驗值常量,為向上取整符號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810255610.4/1.html,轉載請聲明來源鉆瓜專利網。





