[發明專利]一種分布式文件系統及其數據分布方法有效
| 申請號: | 201410064361.2 | 申請日: | 2014-02-25 |
| 公開(公告)號: | CN103778255A | 公開(公告)日: | 2014-05-07 |
| 發明(設計)人: | 張勤 | 申請(專利權)人: | 深圳市中博科創信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 文件系統 及其 數據 分布 方法 | ||
技術領域
本發明涉及文件系統的數據管理,尤其涉及的是,一種分布式文件系統及其數據分布方法。
背景技術
在信息化飛速發展的時代,數據的大量膨脹使得分布式文件系統進入了發展的黃金時期,從數據共享到互聯網應用,已經應用到了各行各業。對于大多數分布式文件系統或集群文件系統、并行文件系統而言,通常將元數據與數據兩者獨立開來,即控制流與數據流進行分離,從而獲得更高的系統擴展性和I/O并發性,由此可見元數據的重要性與必要性。
但隨著數據量的急劇膨脹,文件系統面臨的將是PB(百萬GB)級的數據和上千萬的存儲節點,不論是集中式元數據服務文件系統、分布式元數據服務文件系統或者是無元數據服務文件系統,都將面臨著極大的挑戰。在大數據存儲的領域,數據的分布往往是文件系統性能的關鍵。
大部分系統只是向未充分使用的設備寫數據。這種方式主要的問題是:數據在寫入之后很少被移動。即使是非常出色的分布方法也會在系統擴展的時候變得不均衡,因為新的磁盤要么是空的,要么僅包含很少的數據。不論舊的或者新的磁盤都會很忙,這取決于系統負載,但是很少的情況下才能充分利用有用資源。一個較好的解決方法是:將數據隨機地分布到系統可用的存儲設備上。這樣會得到概率上的均衡分布和將新舊設備一致地混合起來。當加入新設備,一份存在數據的隨機樣本就會遷移到新增的存儲設備上來達到平衡。這種方法有一個非常好的優點,在工作負載很大的情況下,所有設備上的工作負載都相似,依然可以保證較好的性能。另外,在大型的存儲系統中,單一的大文件將會被隨機地分布到很多可用的設備上,對外提供高的并行性和聚合帶寬。然而,簡單的基于hash(哈希)的分布策略不能適應存儲設備的變化,導致大量數據的重新遷移、沖刷。而且,現有的隨機分布策略通過分配每個磁盤的副本到其他的設備上來接觸復制,這樣在有多個設備一起失效時會丟失數據。
發明內容
本發明所要解決的技術問題是提供一種新的分布式文件系統及其數據分布方法。
本發明的技術方案如下:一種分布式文件系統的數據分布方法,其包括以下步驟:將所述分布式文件系統分成若干存儲層,每一存儲層包括若干存儲設備;設置各存儲層及其存儲設備的組成信息,以及副本放置策略信息;根據所述組成信息以及所述副本放置策略信息,分布對象副本到各存儲層中的各存儲設備。
優選的,所述數據分布方法中,分布對象副本之前,還執行以下步驟:選擇或修改所述副本放置策略信息中的至少一副本放置策略。
優選的,所述數據分布方法中,設置各存儲層及其存儲設備的組成信息中,還包括以下步驟:設置各存儲層及其存儲設備的組成信息為一可用資源的層次集群分布圖,并為所述層次集群分布圖建立各存儲設備的邏輯元素連接;并且,設置副本放置策略信息中,還包括以下步驟:設置副本放置策略信息包括數據存放規則選項,其包括選擇若干目標設備存放副本以及對副本的約束條件;其中,所述約束條件至少包括選擇一存儲層。
優選的,所述數據分布方法中,所述數據存放規則選項還包括輸入步驟和生成步驟;所述輸入步驟輸入一個整數X;所述生成步驟根據所述整數X生成可選存放副本列表;并且,在所述分布對象副本時,執行所述輸入步驟。
優選的,所述數據分布方法中,所述數據存放規則選項采用方法定義放置規則指定數據的分布;每一數據存放規則選項包含一系列應用到相應存儲層的操作。
優選的,所述數據分布方法中,設置各存儲層及其存儲設備的組成信息中,還包括步驟:對一所述存儲層中的各存儲設備,以每個存儲設備的容量和性能設置其權重;并且,設置副本放置策略信息中,還包括步驟:根據各權重均衡分布數據對象到各存儲設備上。
優選的,所述數據分布方法還包括步驟:所述分布式文件系統采用對象池管理各存儲層及其存儲設備;并且,每個對象池中的所有數據對象均設置同樣的對象信息,其包括副本份數與分布規則,所述對象信息緩存在各客戶端中。
優選的,所述數據分布方法中,每個存儲設備設置若干個放置組;采用一哈希函數把數據對象的屬性關鍵字映射到放置組,一個放置組存放多個數據對象;采用一致性哈希函數將放置組號映射到實際存放數據對象的存儲設備,根據放置組號與副本數量,生成副本位置信息;其中,第一個副本是主副本,其它為從副本。
優選的,所述數據分布方法中,所述數據對象的各副本分別放置到相異供電系統、控制器或者物理位置的存儲設備上。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市中博科創信息技術有限公司,未經深圳市中博科創信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410064361.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種熱敏性環氧樹脂粘接劑在多線切割中的用途
- 下一篇:一種弱堿性溶液的新用途
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





