[發明專利]基于異構Hadoop集群環境下的數據塊副本放置方法有效
| 申請號: | 201810175672.4 | 申請日: | 2018-03-02 |
| 公開(公告)號: | CN108519856B | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 吳奇石;劉洋;張曉陽;侯愛琴;王永強 | 申請(專利權)人: | 西北大學 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 西安恒泰知識產權代理事務所 61216 | 代理人: | 李婷;周春霞 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 hadoop 集群 環境 數據 副本 放置 方法 | ||
1.基于異構Hadoop集群環境下的數據塊副本放置方法,Hadoop集群中包括M個節點,該方法用于將數據塊的新增副本放置到節點上,其特征在于,包括以下步驟:
步驟1,在第n個時間周期Tn內,n為大于0的整數,對多個數據塊采用基于灰度預測模型的預測方法進行熱度預測,得到在該時間周期Tn內每個數據塊的總訪問率;
步驟2,識別第n個時間周期Tn內的需要新增副本的數據塊;
步驟3,計算需要新增副本的每個數據塊的新增副本數,并將該數據塊復制多次,數據塊的復制次數與新增副本數相同,得到多個新增副本;
步驟4,計算Hadoop集群中每個節點的性能分數,按照性能分數由高到低對節點進行排序,得到節點序列[B1,B2,…Bm,…BM],其中,Bm表示節點序列中的第m個節點,M表示節點總數;
步驟5,將步驟2中需要新增副本的數據塊按照總訪問率由高到低進行排序,得到數據塊序列[A1,A2,…Ai,…AI],其中,Ai表示數據塊序列中的第i個數據塊,I表示具有新增副本的數據塊的總數;
步驟6,由前到后逐一選取數據塊序列中的數據塊,將選取到的數據塊的所有新增副本放置到節點序列的RN個節點上;具體采用的方法如下:
記數據塊Ai-1的最后一個新增副本放置在節點Bm上,則數據塊Ai的第一個新增副本放置到節點Bm+p,(1≤p≤M-m)上,節點Bm+p上未放置屬于數據塊Ai的任一原始副本;
數據塊Ai的下一個新增副本放置到節點Bm+q,(pq≤M-p)上,節點Bm+q上未放置屬于數據塊Ai的任一原始副本;直至數據塊Ai的所有新增副本均放置到相應節點上。
2.如權利要求1所述的基于異構Hadoop集群環境下的數據塊副本放置方法,其特征在于,所述步驟2中的識別第n個時間周期Tn內的需要新增副本的數據塊;采用的方法如下:
對于第i個數據塊,若第n個時間周期Tn內第i個數據塊的平均訪問率APiTn≥第n個時間周期Tn內集群的平均訪問率APTn,則該第i個數據塊需要新增副本,否則,該第i個數據塊不需要新增副本;
其中,第n個時間周期Tn內第i個數據塊的平均訪問率APiTn,采用如下公式計算:
上式中,表示第n個時間周期Tn內第i個數據塊的熱度,表示第j個時間周期Tj內第i個數據塊的總訪問率;
所述第n個時間周期Tn內第i個數據塊的熱度也可采用如下公式計算:
其中,表示第n個時間周期Tn內第i個數據塊的總訪問率,表示第n-1個時間周期T(n-1)內第i個數據塊的熱度。
3.如權利要求2所述的基于異構Hadoop集群環境下的數據塊副本放置方法,其特征在于,所述步驟3中的新增副本數的計算方法如下:
第i個數據塊的新增副本數用RNi表示,采用如下公式計算:
其中,為第n個時間周期Tn內第i個數據塊的平均訪問率,APTn為第n個時間周期Tn內Hadoop集群的平均訪問率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北大學,未經西北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810175672.4/1.html,轉載請聲明來源鉆瓜專利網。





