[發明專利]一種基于HDFS的動態副本管理方法在審
| 申請號: | 201310576782.9 | 申請日: | 2013-11-19 |
| 公開(公告)號: | CN103631894A | 公開(公告)日: | 2014-03-12 |
| 發明(設計)人: | 孟祥飛;孫志云;吳楠 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hdfs 動態 副本 管理 方法 | ||
技術領域
本發明涉及當前大數據Hadoop生態系統中HDFS領域,特別是涉及一種基于HDFS的動態副本管理方法。
技術背景
Hadoop?Distributed?File?System,簡稱HDFS,是一個分布式文件系統。GFS?也就是?google?File?System,google公司為了存儲海量搜索數據而設計的專用文件系統。
隨著互聯網的快速發展,數據量呈現指數級增長,為了適應這種情況,如今已經出現了很多大的服務器架構如數據中心以及云計算。在大數據處理方面,Google的GFS為處理大文件提供了有效的方法,而Hadoop下的文件系統HDFS作為GFS開源實現,實現了GFS的絕大多數功能,是在現階段大數據處理領域內廣泛使用的一種分布式并行文件系統,那么在并行文件系統中,副本是其重要的組成部分。設計分布式并行文件系統的重要的作用就是協調各個廉價低端的節點完成性能較高或工作量較大的任務,將可靠性差的節點組成一個高可靠性的系統,實現這一目標的途徑既是建立副本,怎么樣管理這些副本資源,以及副本存放策略,增減策略等,是分布式并行文件系統的重要任務之一。數據管理包括數據分布方式、副本管理、訪問控制等,其中副本管理的目的是:多副本提高容錯性、提高數據處理的并發性以提高性能。
發明內容
本發明要解決的技術問題是:當前大數據Hadoop生態系統中HDFS急需解決的一個重要的問題即靜態副本策略無法滿足熱點數據訪問的問題。具體說來主要解決以下幾個問題:
1)?數據類型及粒度
HDFS?中支持大文件,但又需要考慮對于小的文件如何處理,是否支持。還有大文件每個分片的大小,即粒度問題。分片太小,不利于?Hadoop?框架的流式讀,不能發揮?Hadoop?的優勢,分片太大,又不利于數據的并行處理。
2)?副本創建個數
副本創建個數即副本冗余度問題,指同一邏輯副本名對應的物理副本數量。對于熱點數據,可以動態創建副本,動態創建副本需要考慮創建多少個副本,副本創建過少,不能有效地提高系統性能,副本創建過多,又會浪費存儲空間。
3)?副本創建時機
副本創建的時機是指只有在滿足特定條件后,副本管理模塊才會執行副本創建任務。副本管理模塊定期檢查對數據的訪問請求次數,當副本管理模塊發現在一定時期內,某個文件訪問次數超過一個特定閾值,則自動觸發副本創建功能。
4)?副本放置
副本創建的一個關鍵問題是副本放在何處,即副本的放置策略。HDFS?中副本創建又分為主副本缺省副本的創建,以及動態創建的副本。不同的副本放置策略會很大程度的影響系統的性能。
5)?副本的一致性
HDFS?系統提供弱化的一致性,但是在文件寫入時,對各個副本提供檢查和校驗,仍是一致性要求所必需的。
本發明所采用的技術方案為:一種基于HDFS的動態副本管理方法,包括副本放置策略、動態副本創建策略和動態副本刪除策略,其中,副本放置策略包括主副本缺省副本的放置策略以及其他副本的放置策略,是一種主動調平的策略,在副本創建一開始就充分考慮負載平衡的問題,主動地將副本放置在最佳位置,即負載最輕的位置,盡可能消除負載不平衡的潛在風險,該策略避免了創建的副本在整個存儲系統內的任意放置,而是根據存儲節點的計算能力及已經存儲的數據塊的多少來判斷最佳位置。
其中,主副本以及缺省副本放置策略為:
出于容錯的考慮,每個?HDFS?中的數據塊,在文件被寫入文件系統時,默認將會有?1?個主副本和兩個缺省副本。其中主副本和其中一個缺省副本保存在本地機架(上傳文件所在的同一個路由器下的集群),另一個缺省副本放在除本地機架外其他任意一個機架上。
每個機架內機器的選擇有兩個參數指標:
?已存儲數據塊多少
?cpu?處理性能
設第個i機器存儲數據塊的數目為Ni,cpu?處理性能為CAi,設變量其中k1、k2?為常數系數。在本地機架算出所有節點的?P?值,選擇?P?值最小的兩臺機器創建主副本和其中一個缺省副本,在遠程機架算出所有節點的?P?值,選擇?P?值最小的一臺機器創建另外一個缺省副本。選擇的過程中跳過已經存在本數據塊的副本的機器;同時檢測空間大小,跳過空間不足以保存副本的機器。整個過程的流程圖如圖1所示。
其他副本放置策略:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310576782.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于位置的用戶感知視頻點播會話
- 下一篇:通過減壓蒸餾制備煙草精油的方法





