[發明專利]基于異構Hadoop集群環境下的數據塊副本放置方法有效

申請號：	201810175672.4	申請日：	2018-03-02
公開（公告）號：	CN108519856B	公開（公告）日：	2020-10-27
發明（設計）人：	吳奇石;劉洋;張曉陽;侯愛琴;王永強	申請（專利權）人：	西北大學
主分類號：	G06F3/06	分類號：	G06F3/06
代理公司：	西安恒泰知識產權代理事務所 61216	代理人：	李婷;周春霞
地址：	710069 ***	國省代碼：	陜西;61
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于 hadoop 集群環境數據副本放置方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.基于異構Hadoop集群環境下的數據塊副本放置方法，Hadoop集群中包括M個節點，該方法用于將數據塊的新增副本放置到節點上，其特征在于，包括以下步驟：

步驟1，在第n個時間周期Tn內，n為大于0的整數，對多個數據塊采用基于灰度預測模型的預測方法進行熱度預測，得到在該時間周期Tn內每個數據塊的總訪問率；

步驟2，識別第n個時間周期Tn內的需要新增副本的數據塊；

步驟3，計算需要新增副本的每個數據塊的新增副本數，并將該數據塊復制多次，數據塊的復制次數與新增副本數相同，得到多個新增副本；

步驟4，計算Hadoop集群中每個節點的性能分數，按照性能分數由高到低對節點進行排序，得到節點序列[B₁，B₂，…B_m，…B_M]，其中，B_m表示節點序列中的第m個節點，M表示節點總數；

步驟5，將步驟2中需要新增副本的數據塊按照總訪問率由高到低進行排序，得到數據塊序列[A₁，A₂，…A_i，…A_I]，其中，A_i表示數據塊序列中的第i個數據塊，I表示具有新增副本的數據塊的總數；

步驟6，由前到后逐一選取數據塊序列中的數據塊，將選取到的數據塊的所有新增副本放置到節點序列的RN個節點上；具體采用的方法如下：

記數據塊A_i-1的最后一個新增副本放置在節點B_m上，則數據塊A_i的第一個新增副本放置到節點B_m+p,(1≤p≤M-m)上，節點B_m+p上未放置屬于數據塊A_i的任一原始副本；

數據塊A_i的下一個新增副本放置到節點B_m+q,(pq≤M-p)上，節點B_m+q上未放置屬于數據塊A_i的任一原始副本；直至數據塊A_i的所有新增副本均放置到相應節點上。

2.如權利要求1所述的基于異構Hadoop集群環境下的數據塊副本放置方法，其特征在于，所述步驟2中的識別第n個時間周期Tn內的需要新增副本的數據塊；采用的方法如下：

對于第i個數據塊，若第n個時間周期Tn內第i個數據塊的平均訪問率AP_i^Tn≥第n個時間周期Tn內集群的平均訪問率AP^Tn,則該第i個數據塊需要新增副本，否則，該第i個數據塊不需要新增副本；

其中，第n個時間周期Tn內第i個數據塊的平均訪問率AP_i^Tn，采用如下公式計算：

上式中，表示第n個時間周期Tn內第i個數據塊的熱度，表示第j個時間周期Tj內第i個數據塊的總訪問率；

所述第n個時間周期Tn內第i個數據塊的熱度也可采用如下公式計算：

其中，表示第n個時間周期Tn內第i個數據塊的總訪問率,表示第n-1個時間周期T(n-1)內第i個數據塊的熱度。

3.如權利要求2所述的基于異構Hadoop集群環境下的數據塊副本放置方法，其特征在于，所述步驟3中的新增副本數的計算方法如下：

第i個數據塊的新增副本數用RN_i表示，采用如下公式計算：

其中，為第n個時間周期Tn內第i個數據塊的平均訪問率，AP^Tn為第n個時間周期Tn內Hadoop集群的平均訪問率。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于西北大學，未經西北大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810175672.4/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】