[發明專利]一種HDFS中數據塊的副本管理策略有效

申請號：	201310330292.0	申請日：	2013-07-31
公開（公告）號：	CN103425756A	公開（公告）日：	2013-12-04
發明（設計）人：	伍衛國;樊源泉;姚超;魏偉;高顏;曹瑩方;段章峰;朱霍	申請（專利權）人：	西安交通大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	西安智大知識產權代理事務所 61215	代理人：	賀建斌
地址：	710049***	國省代碼：	陜西;61
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種 hdfs 數據副本管理策略
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種HDFS中數據塊的副本管理策略，其特征在于：包括副本的啟動時機的選擇方法，副本個數的選擇方法，副本位置的選擇方法，以及新增副本的放置方法；

所述副本的啟動時機的選擇方法，具體步驟為：1）確定啟動周期，把一天當作一個訪問周期來進行副本策略的啟動，這樣一個訪問周期也就是副本策略的啟動周期；2）確定啟動時刻，在確定了啟動周期之后，副本的啟動需要在啟動周期內負載最輕的時刻啟動。

2.根據權利要求1所述的一種HDFS中數據塊的副本管理策略，其特征在于：所述副本個數的選擇方法，具體步驟為：1）采用泊松分布來計算副本的個數，首先，通過namenode得到在最近一段時間內的用戶訪問數，找出需要備份的熱點數據；其次，對于該熱點數據，namenode能夠得到它所有副本所在的datanode，通過讀取包含有該熱點數據副本的datanode的日志文件，記錄下熱點數據文件在一天內的所有訪問時間間隔{t1，t2，t3……tm}；然后，求得用戶的平均訪問到達率；最后，通過泊松分布求得副本數目；

2）基于排隊論的副本個數計算方法，具體步驟如下：

第一步，建模分析，通過分析服務對象的到來時間以及服務時間，求得服務對象的等待時間、排隊隊列長隊以及整個系統忙閑程度指標，然后根據這些指標來改進服務系統，具體為：根據標準的M/D/c排隊論模型，用戶訪問到來的時候會排成一個隊列，用戶請求的數據在數據節點空閑的時候進行訪問，每一個節點之間是相互獨立的，平均服務率μ₁=μ₂=μ₃=……=μ_R=μ，那么對于該文件數據來說整個系統的服務率就可以看做是Rμ，如果用戶訪問到達率為λ，那么系統的繁忙的概率按照排隊論理論，只有ρ<1的時候才不會形成無限隊列，這就要求在用戶訪問到達率λ大的時候，需要盡量多的副本數目R來滿足ρ<1，實際情況R的數目也不是沒有上限的，根據系統要求和分析，確定副本個數的取值范圍；

第二，確定副本個數的下限，在一個HDFS分布式文件系統的集群中，假設p為一個單一節點不出現故障的概率，A為系統的可用性要求，R為最低副本數目，那么根據概率論則有文件不可用的概率為（1-p）R,那么至少有一個副本可用的概率則為1-（1-p）R，所以系統的可用性A滿足

1-(1-p)^R≥A，

從而得到副本的下限：

R≥log(1-A)log(1-p);]]>