[發明專利]一種分布式存儲系統中的彈性多維度冗余方法在審
| 申請號: | 201811595585.0 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109783016A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 張興軍;劉威;董小社;武旭瑞;趙英交;劉云飛 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06;G06F11/10;G06F11/14 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 徐文權 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式存儲系統 副本技術 存儲空間 冗余方式 數據冗余 冗余 多維度 存儲空間開銷 數據訪問性能 占用 策略結合 動態轉換 數據安全 數據讀取 數據訪問 網絡帶寬 系統運行 優化 寫入 保證 節約 恢復 | ||
本發明公開了一種分布式存儲系統中的彈性多維度冗余方法,主要針對分布式存儲系統中數據的冗余方式進行優化。目前,在分布式存儲系統中,一般多采用數據冗余方式來保證數據的可靠性。實現數據冗余的方法主要有副本技術和糾刪碼技術。其中,副本技術可以提供更高效的數據訪問,但存儲空間開銷較大;而糾刪碼技術相對于副本技術更加節約存儲空間,同時寫入速度較快,但在進行數據讀取和恢復時需要占用更多的網絡帶寬。本策略結合副本技術與糾刪碼技術的優點進行設計,提出了在系統運行時的冗余方式動態轉換策略。這種策略可以在在保證數據安全的同時減少對存儲空間的占用,并且在數據訪問性能上做出了優化。
技術領域
本發明涉及計算機存儲領域,特別涉及一種分布式存儲系統中的彈性多維度冗余方法。
背景技術
隨著物聯網、云計算的發展,數據呈現出爆炸性增長。海量數據的存儲目前普遍使用分布式存儲解決方案,比較著名的分布式存儲系統有谷歌的GFS(Google File System)、GFS的開源版本HDFS(Hadoop Distributed File System)、微軟的WAS(Windows AzureStorage)以及Ceph等。Ceph憑借其開放性、可擴展性和可靠性,目前在開源分布式存儲領域得到很多學者和企業的關注。在大規模的分布式存儲系統中,存儲介質出錯已是常態,為了保證系統的可靠性,需要采用冗余方式提來保證系統的可靠性。但數據冗余會占用額外的存儲空間,以便于在部分數據丟失時能及時執行數據恢復,保證數據無損,這會給系統帶來額外的性能損失和存儲開銷。因此,數據冗余必須在保證數據安全的同時盡可能減少對存儲空間的占用,并提高系統的響應速度。
目前的冗余方式主要有副本和糾刪碼兩種:
基于復制備份的容災技術是目前較為成熟的分布式存儲系統的容災方法,該技術指分布式存儲系統將數據的多個副本放置在不同的節點上。由于多份副本均可對外提供服務,該模式訪問性能較好,且恢復時僅需將其副本拷貝至新加入的節點,故恢復恢復速度快,但會占用大量的數據存儲空間。
糾刪碼憑借其高效的存儲空間利用率、較低的存儲開銷,近年來被廣泛應用于大規模分布式存儲系統。糾刪碼的基本思想是通過對原始數據進行編碼得到校驗數據,當部分原始數據丟失時,可以使用校驗數據進行解碼從而得到原始數據,以達到容錯的目的。由于糾刪碼產生的校驗數據往往比原始數據更小,故糾刪碼模式占用的額外空間遠遠小于多副本模式。且在滿足強一致性的分布式存儲系統中,糾刪碼模式在進行數據寫入時,進行的磁盤IO比副本模式要少,故寫入速度更快。但糾刪碼會帶來高昂的讀延遲和較長的數據重構時間。讀延遲是因為直接讀取需要讀取多個磁盤,并通過網絡進行傳輸,還要占用系統資源進行數據恢復,而在進行這些的過程中,請求讀取這個塊的進程則一直在等待,這導致了高延遲,影響了系統的讀性能。而糾刪碼在進行數據重構時,恢復時間比副本系統要長得多,即使恢復可以在后臺進行,這也會嚴重影響系統的吞吐,增加降級讀和系統重構的開銷。
分布文件系統重復數據多,而且面臨著軟硬件故障,重啟,維護等一系列會對數據產生破壞的問題。為保持高可靠和高可用,必然要結合副本技術與糾刪碼技術的優點。目前針對分布式存儲系統冗余方式的優化主要集中在兩個方面:一是根據數據的訪問狀況動態調整副本數量,二是針對糾刪碼進行優化,采用新的編碼方式和編碼參數,在恢復開銷和存儲空間占用之間做權衡。這些方法都不能很好地兼顧存儲空間和系統性能。
發明內容
本發明的目的在于提供一種分布式存儲系統中的彈性多維度冗余方法,以解決上述問題。
為實現上述目的,本發明采用以下技術方案:
一種分布式存儲系統中的彈性多維度冗余方法,包括以下步驟:
步驟1:構建一個分布式存儲系統,包含一個監控節點和N個存儲節點,監控節點負責統計各存儲節點的數據訪問信息,并根據近期的數據訪問情況,選擇合適的冷熱數據判別算法,將數據劃分為冷數據,熱數據,溫數據三種;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811595585.0/2.html,轉載請聲明來源鉆瓜專利網。





