[發明專利]一種hadoop數據存儲方法和裝置在審

申請號：	201710799237.4	申請日：	2017-09-07
公開（公告）號：	CN107566496A	公開（公告）日：	2018-01-09
發明（設計）人：	辛永欣	申請（專利權）人：	鄭州云海信息技術有限公司
主分類號：	H04L29/08	分類號：	H04L29/08
代理公司：	北京安信方達知識產權代理有限公司11262	代理人：	李紅爽,李丹
地址：	450018 河南省鄭州市***	國省代碼：	河南;41
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種 hadoop 數據存儲方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明實施例涉及數據存儲技術，尤指一種hadoop數據存儲方法和裝置。

背景技術

隨著互聯網和分布式計算技術的發展，出現了越來越多的數據密集型應用，這些應用常常需要涉及數TB(太字節)的數據，如何高效、可靠而又方便地處理大量的數據成為當前一個重要研究方向，并且如何可靠而且合理地存放海量數據是Hadoop(一種分布式系統基礎架構)體系中的一個重要問題。Hadoop將數據的多個副本存放在集群中的不同機器上，當有節點失效時，其仍然可以讀取數據。但另一方面，由于MapReduce中的運算常常需要輸入大量的數據，而大量數據的移動會顯著影響運算的性能，所以數據的存放應當遵循本地性的原則，即數據應當距離運算節點較近，從而減少因數據移動帶來的性能損失。HDFS(Hadoop分布式文件系統)目前的副本放置策略如下：如果寫入者在一個數據節點DataNode上，那么第一個副本在本機，否則隨機選取一個節點。第二個副本先在另一個機架上，第三個副本被放置在同第二個副本同一機架，但不同的數據節點上。該方案存在以下問題：隨機選取的機架的節點可能會由于距離本地節點太遠而增加不必要的數據恢復時間，同時隨機選取節點也不能保證節點之間數據存儲的平衡。由于系統中節點的失效是常態，數據恢復時不必要的性能損失會導致整個存儲系統性能下降。

發明內容

為了解決上述技術問題，本發明實施例提供了一種hadoop數據存儲方法，能夠實現數據存放的負載均衡，又能實現良好的數據傳輸性能。

為了達到本發明實施例目的，本發明實施例提供了一種hadoop數據存儲方法，包括：

當接收到用戶提交的數據存儲請求時，名字節點NameNode從多個不同機架中隨機選取預設數量的數據節點DataNode；

獲取預設數量的DataNode中各個DataNode在網絡拓撲中到當前DataNode的距離信息以及各個DataNode當前存放的數據副本數量；

根據該距離信息以及數據副本數量計算每個DataNode的調度評價值；

根據計算出的調度評價值選取數據存放節點。

可選地，當接收到用戶提交的數據存儲請求時，名字節點NameNode從多個不同機架中隨機選取預設數量的數據節點DataNode包括：

根據該數據存儲請求，NameNode調用預設的副本放置策略BlockPlacementPolicy；其中，該BlockPlacementPolicy的節點選取函數chooseTarget()中增加有網絡拓撲NetworkTopology類成員變量clusterMap；

根據clusterMap的節點選擇函數Node chooseRandom(String scope)從多個不同機架中獲得隨機的DataNode。

可選地，獲取預設數量的DataNode中各個DataNode在網絡拓撲中到當前DataNode的距離信息包括：

根據clusterMap的目標距離函數intgetDistance(Node node1，Node node2)獲得各個DataNode與當前DataNode之間的網絡距離。