[發明專利]一種面向數據中心存儲故障的數據恢復調優方法在審
| 申請號: | 202010623169.8 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111796973A | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 李鑫;李慧杰;胡峰;陳兵;秦小麟 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14;G06F9/48 |
| 代理公司: | 蘇州三英知識產權代理有限公司 32412 | 代理人: | 朱如松 |
| 地址: | 210007 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 數據中心 存儲 故障 數據 恢復 方法 | ||
本發明公開的面向數據中心存儲故障的數據恢復調優方法,包括步驟:(1)系統環境配置分析,分析系統配置條件下集群的節點拓撲及可用帶寬,根據分析結果使用最優化策略調整復制因子;(2)復制因子調優策略,在不影響集群批處理作業的基礎上,實現數據副本的高效恢復。本發明旨在最小化集群中的數據副本丟失后的恢復時間,為批處理任務的執行效率提供保障。
技術領域
本發明屬于數據中心技術領域,具體涉及一種面向數據中心存儲故障的數據恢復的調優方法。
背景技術
副本機制是分布式文件系統的核心技術。在數據中心研究領域,針對大數據分析這一問題,一種常規的方法是采用基于MapReduce架構的Hadoop系統。Hadoop系統底層使用HDFS作為其文件存儲系統,HDFS是可容錯的,并且可以提供對大數據集的高吞吐量訪問。MapReduce進行數據分析時將處理邏輯放置到數據附近,但當數據副本或數據節點失效后,其性能并不令人滿意,這主要表現在數據恢復任務將與MapReduce作業競爭帶寬資源,從而導致MapReduce作業執行時間過長。
因此,針對默認數據副本恢復策略的不足,基于MapReduce作業高效執行的需求,研究者提出一類糾刪碼技術,通過糾刪碼算法將原始的數據進行編碼得到校驗,并將數據和校驗一并存儲起來,以達到容錯的目的。然而,該方法在進行數據副本恢復時,會造成較高的帶寬壓力,影響MapReduce作業的執行效率,且對系統的IOPS和延遲影響較大。
因保證數據副本的可用性,犧牲MapReduce作業的執行效率顯然是不合適的,而Hadoop系統默認的數據副本管理機制也沒有充分考慮數據恢復與MapReduce作業的關系,提高數據恢復的效率;此外,大部分研究仍未能將MapReduce作業與數據恢復相結合,未充分利用集群中的可用帶寬資源。
發明內容
本發明公開的面向數據中心存儲故障的數據恢復調優方法,為解決上述技術問題,滿足數據副本高可用性的客觀需求,本發明提出一種面向數據中心存儲故障的數據恢復調優方法,該策略在保證MapReduce作業執行效率的同時,能最小化數據副本的恢復時間。
本發明公開的面向數據中心存儲故障的數據恢復調優方法,包括如下步驟:
步驟1、依據系統參數,依托Hadoop將系統所要完成的任務分為J組復制任務流其中,取上限值,di表示第i組復制任務流中的復制任務數據量,系統參數至少包括數據中心的數據節點的數量N、系統的可用帶寬M、數據塊的容量K和待恢復的數據塊數量R;
步驟2、獲取復制因子G,其中取下限值,根據系統參數初步判斷復制因子的最優范圍;
步驟3、執行復制因子G的調優策略,包括:
(3-1)定義v表示迭代次數,初始化v=1;將各數據節點按網絡距離升序排列,形成待選擇目標數據節點隊列Q;
(3-2)針對數據副本,將復制任務分為n個優先級,組成優先級隊列r;
(3-3)從高優先級復制任務中選擇容量I的復制任務,I滿足:SUMI≥AVG,
SUMI表示待復制任務隊列I中所有復制任務的數據容量;
將I中的復制任務流從優先級隊列中刪除;
(3-4)將I的復制任務根據網絡距離擇優放置在目標數據節點,目標數據節點與失效節點的距離最優;
將優先級隊列中的其他任務根據網絡距離重新排序。
本發明公開的面向數據中心存儲故障的數據恢復調優方法的一種改進,步驟1中系統參數還包括心跳周期W,獲取單位心跳間隔內恢復數據的上限C,滿足C≤max{(N*G*K),(N*M)}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010623169.8/2.html,轉載請聲明來源鉆瓜專利網。





