[發明專利]數據全量導出方法、數據導出任務分配裝置及數據導出節點裝置有效
| 申請號: | 201711395359.3 | 申請日: | 2017-12-21 |
| 公開(公告)號: | CN108228752B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 牛龍飛;陳斌;周一峰 | 申請(專利權)人: | 中國聯合網絡通信集團有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/27 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊澤;劉芳 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 導出 方法 任務 分配 裝置 節點 | ||
本發明提供一種數據全量導出方法、數據導出任務分配裝置及數據導出節點裝置,方法包括:數據導出任務分配裝置針對待導出數據表中的每一數據單元,分析管理所述數據單元的服務單元,其中,所述待導出數據表中包括至少一個數據單元;所述數據導出任務分配裝置將所述待導出數據表中的每一數據單元導出任務分別分配至管理所述數據單元的服務單元所在的主機,以使所述主機上部署的數據導出節點裝置對其管理的數據單元加權平均劃分后進行數據導出。通過發明,能夠在提高數據導出效率的基礎上,降低網絡IO。
技術領域
本發明涉及通信領域,尤其涉及一種數據全量導出方法、數據導出任務分配裝置及數據導出節點裝置。
背景技術
Hbase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,其對于查詢表中的數據,提供了Get和Scan兩種方式,其中Get方法用于按指定Rowkey獲取唯一一條記錄,而在Scan方法中,通過限定StartRowkey和EndRowkey,可以一次性獲取Rowkey介于StartRowkey和EndRowkey之間的所有記錄。HBase的設計特性決定了基于Rowkey檢索數據效率非常高,但檢索的條件如果是普通列,就需要進行全表掃描,即構造一個不指定StartRowkey和EndRowkey的Scan查詢對象,并發起請求,全量數據導出就屬于此類場景下的一個實際應用。
現有技術中,全量數據導出通常采用MapReduce批量任務方式。這種方式充分利用了整個HBase集群的計算資源,將整個表的數據導出任務拆分后分散到集群中的每個節點上去運行。借助MapReduce框架,用戶只需要編寫map和reduce兩個函數,在map函數中,創建HBase連接、打開指定表、構造Scan對象并發送查詢請求,直接處理結果集,或將結果集中的數據發送出去,交由reduce階段處理。MapReduce框架會將任務拆分成若干細粒度的任務,分散到集群中的每個節點去并行運行,同時將最終的結果集輸出到HDFS上配置的輸出目錄中。
但是,MapReduce批量任務方式一般都根據HBase中每個節點的CPU空閑程度進行分配任務,由于待導出的任務可能節點所在的主機中不存在備份,因此,需要從其他主機中調取數據,從而導致集群中的主機之間存在大量數據拷貝,會產生很高的網絡IO,極端情況下會給集群中服務進程間的通信帶來影響,而主機的CPU卻很空閑,集群的各類資源得不到均衡利用。此外,由于MapReduce批量任務方式一般都是按照一個“Region一個任務”的力度將待導出的數據分配至各節點中,但是,由于每個Region之間的數據量差異較大,因此,可能會存在80%的任務運行僅用掉了20%的時間,而20%的任務運行卻用掉80%的時間,造成數據導出效率低。
發明內容
本發明提供一種數據全量導出方法、數據導出任務分配裝置及數據導出節點裝置,用于提高Hbase的數據導出效率以及降低Hbase的數據導出過程中較高的網絡IO。
本發明的第一個方面是提供一種數據全量導出方法,包括:數據導出任務分配裝置針對待導出數據表中的每一數據單元,分析管理所述數據單元的服務單元,其中,所述待導出數據表中包括至少一個數據單元;所述數據導出任務分配裝置將所述待導出數據表中的每一數據單元導出任務分別分配至管理所述數據單元的服務單元所在的主機,以使所述主機上部署的數據導出節點裝置對其管理的數據單元加權平均劃分后進行數據導出。
本發明的另一個方面是提供一種數據全量導出方法,包括:數據導出節點裝置接收數據導出任務分配裝置分配的數據單元導出任務,所述數據單元導出任務對應的數據單元由所述管理所述數據單元的服務單元所在的主機上部署的數據導出節點裝置管理;數據導出節點裝置根據所述數據單元導出任務,調用服務單元從其自身所在的主機上配置的HDFS的數據節點獲取當前待導出的數據單元的副本,且所述數據節點存儲有所述服務單元管理的全部數據單元的副本;數據導出節點裝置將所述數據單元的副本平均分配至各線程池中進行數據導出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國聯合網絡通信集團有限公司,未經中國聯合網絡通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711395359.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





