[發明專利]跨集群數據遷移方法和系統有效
| 申請號: | 201410455695.2 | 申請日: | 2014-09-09 |
| 公開(公告)號: | CN104239493B | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 黃剛;何洋 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 胡彬,路凱 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 集群 數據 遷移 方法 系統 | ||
技術領域
本發明實施例涉及數據庫技術領域,尤其涉及一種跨集群數據遷移方法和系統。
背景技術
隨著互聯網應用的發展,用戶量的激增,數據存儲數量呈指數遞增,傳統的單庫存儲技術無法滿足海量數據的存取需求,HDFS(Hadoop Distributed File System,分布式文件系統)和分布式數據庫應用而生。
HBase(Hadoop Database,分布式數據庫)是一種可擴展的、面向列存儲的分布式數據庫,利用HDFS作為文件存儲系統,以數據表的形式存儲數據,能在普通硬件環境基礎上支撐十億量級行、百萬量級列的大型數據表,并支持對這種規模的數據進行隨機存儲和讀取操作。由于具有高可靠性、高可擴展性、支持隨機存取以及支持MapReduce(映射化簡)并行計算,因此得到了廣泛應用。其中,Hadoop是一個由“Apache”基金會開發的分布式系統基礎架構,用戶可以在不了解分布式底層細節的情況下,開發分布式程序,充分利用集群的威力實現高速運算和海量數據的存取。
實際應用過程中,不可避免地涉及數據遷移,尤其是當線上某個HBase集群需要下線,或者機房維護搬遷的時候,都會面臨海量數據遷移的緊迫任務,即把老集群的數據表遷移到新集群中繼續為接入業務方提供海量數據存取服務。
現有的數據遷移技術,通常采用Hadoop的數據拷貝組件進行分布式拷貝,從而達到將一個集群中的數據表遷移到新集群的目的。當數據拷貝完成后,啟動新集群相關服務進程。
上述數據遷移技術存在的缺陷在于:無法保證遷移后數據的完整性;遷移耗時嚴格依賴于遷移數據的規模,導致遷移所用時間很難控制,如果集群間網絡帶寬有限,同時遷移數據又多,很難保證在短暫的遷移窗口完成遷移工作,也即遷移效率低。
發明內容
本發明實施例提供一種跨集群數據遷移方法和系統,以確??缂簲祿w移的完整性和高效性。
第一方面,本發明實施例提供了一種跨集群數據遷移方法,包括:
源集群的主控節點調用停止命令控制源集群的各子節點停止數據操作;
源集群的主控節點利用源集群的分布式數據庫的清空緩沖區組件,將所述分布式數據庫內存中的數據持久化到分布式文件系統HDFS中;
源集群的主控節點控制對源集群的分布式數據庫所包含的數據表,采用設定的壓縮算法進行壓縮;
源集群的主控節點統計源集群的分布式數據庫中的數據表所占用的HDFS的第一存儲空間大小及第一總文件塊數;
源集群的主控節點基于預先獲取的目標集群所包含的節點的IP地址與主機名稱的映射關系,將源集群中分布式數據庫中的數據表遷移至所述目標集群的分布式數據庫中;
如果獲取到源集群的映射化簡進程的網頁管理界面返回的數據遷移完成消息,則目標集群的主控節點統計目標集群的分布式數據庫中的數據表占有的對應的HDFS的第二存儲空間大小和第二總文件塊數,并將所述第二存儲空間大小和第二總文件塊數與所述第一存儲空間大小和所述第一總文件塊數匹配;
如果匹配成功,則目標集群的主控節點采用與所述設定的壓縮算法對應的解壓算法對遷移至目標集群中的數據表進行解壓;
目標集群的主控節點基于啟動策略,啟動所述目標集群。
第二方面,本發明實施例還提供了一種跨集群數據遷移系統,包括源集群和目標集群,所述源集群包括主控節點和至少一個子節點,所述目標集群包括主控節點和至少一個子節點;
所述源集群的主控節點包括:
停止模塊,用于調用停止命令控制源集群的各子節點停止數據操作;
持久化模塊,用于利用源集群的分布式數據庫的清空緩沖區組件,將所述分布式數據庫內存中的數據持久化到分布式文件系統HDFS中;
壓縮模塊,用于對源集群的分布式數據庫所包含的數據表,采用設定的壓縮算法進行壓縮;
統計模塊,用于統計源集群的分布式數據庫中的數據表所占用的HDFS的第一存儲空間大小及第一總文件塊數;
遷移模塊,用于基于預先獲取的目標集群所包含的節點的IP地址與主機名稱的映射關系,將源集群中分布式數據庫中的數據表遷移至所述目標集群的分布式數據庫中;
所述目標集群的主控節點包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410455695.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:冰箱瓶托及冰箱
- 下一篇:一種搜索結果的獲取方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





