[發明專利]一種云存儲數據同步框架及其實現方法有效
| 申請號: | 201210313628.8 | 申請日: | 2012-08-29 |
| 公開(公告)號: | CN102882927A | 公開(公告)日: | 2013-01-16 |
| 發明(設計)人: | 劉發貴;楊英儀;楊平安 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06F17/30 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 邱奕才 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 存儲 數據 同步 框架 及其 實現 方法 | ||
技術領域
本發明屬于數據云存儲領域,特別是涉及數據同步框架的設計與實現。
背景技術
隨著互聯網產業的飛速發展,海量數據的存儲及實時處理成了計算機行業亟待解決的難題。傳統的關系型數據庫已經不能處理海量數據中非結構化數據日漸增長的特點,而以Hadoop為代表的分布式數據解決方案則開始成為業界關注的焦點。
Hadoop框架已經成為當前進行海量數據處理的首選框架,甚至被譽為“連接21世界海量數據處理的金鑰匙”。作為Hadoop的基礎模塊,HDFS為用戶提供了一個分布式的文件系統。HDFS采用經典的master/slave架構,一個搭建了HDFS的集群往往是由一個作為master的Namenode節點和一定數目作為slave的Datanodes節點組成。HDFS的結構可用圖1進行說明。
Namenode是HDFS系統的核心。它是一個中心服務器,存儲著文件系統的所有元數據(Metadata),包括:名字空間、訪問控制信息、文件與數據存儲塊的映射關系,以及當前系統內所有數據塊的位置信息,用來管理文件系統中的命名空間及客戶端對文件系統的訪問。同時,Namenode節點還管理著系統范圍內的活動,包括數據存儲塊的分配,孤兒存儲塊的回收,以及數據存儲塊在不同Datanodes節點之間的遷移。在實現上,Namenode節點使用心跳信息包周期性地與每個Datanode服務器聯系,并且維持一個在線Datanode的列表,發送指令到各個Datanode服務器并接收它們的狀態信息。
HDFS的master/slave結構具有高容錯的特點,可提供高吞吐量的數據訪問,非常適合海量數據集的應用。HDFS放寬了對部分POXIS的限制,可方便地實現流式文件系統讀取的目的。由于master采用單一的Namenode服務器,優點是容易實現,并且可以使用簡單有效的邏輯來管理元數據。然而,HDFS的這種結構也存在缺點:作為其master/slave架構中master的中心服務器,Namenode節點為單一節點意味著,如果Namenode服務器失效,將造成整個文件系統的崩潰。并且,由于所有的訪問都要流經Namenode結點,所以該單點也會成為系統的熱點,成為效率的瓶頸。
針對Namenode失效的可能,HDFS本身采用了FsImage與EditLog結合備份的方式。當Namenode失效以后,文件系統可以根據硬盤中的映像FsImage及操作日志EditLog進行恢復。根據文件系統的規模,恢復過程所花費的時間也有所不同;更重要的一點是,在Namenode的恢復期間,整個文件系統將處于不可訪問的狀態。
目前在業界,也存在多種解決HDFS?Namenode單點故障的HDFS?HA(High?Availability,高可用性)方案。如,Facebook公司的AvatarNode項目實際上提供了一種熱備方式。它采用Namenode主備切換的方式,當主Namenode節點失效以后,通過人工切換的方式,將所有對Namenode的請求轉移到備機上去。而DRBD(Distributed?Replicated?Block?Device)則提供了一種冷備方式。當將數據寫入本地DRBD設備上的文件系統時,數據會被同時發送到網絡中的另外一臺主機上,并以完全相同的形式被記錄在其上的文件系統中。本地節點與遠程節點的數據可以保證實時同步,并且保證IO的一致性。所以當本地節點的主機出現故障時,遠程節點的主機上還會保留著一份完全相同的數據可供使用,從而達到了HA的目的。
這兩類方案雖然可以實現Namenode的故障恢復,體現了當前HDFS?HA(高可用性)的主要思路,但其缺點也顯然易見:
1.?????????并沒有將Namenode從單點中解放,同一時間仍只有一個中心服務器在線,所以它仍是系統的熱點。在大規模的集群應用中,仍是系統效率的瓶頸;
2.?????????由于需要在主機備機之間進行數據的同步,同步的頻率從數秒到幾分鐘不等,則在Namenode失效之后,肯定有部分數據被丟失;
3.?????????主備切換需要人工的干預,從系統失效報警到人工切換備機,期間必定存在一定時間間隔,那這段時間內,系統同樣是不可訪問的。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210313628.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據傳輸方法、相關終端及系統
- 下一篇:一種機電抑制通信無節制流量的方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





