[發明專利]數據處理方法及系統有效
| 申請號: | 201911326062.0 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111159112B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 王勝杰 | 申請(專利權)人: | 新華三大數據技術有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F16/172 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 高萍 |
| 地址: | 450000 河南省鄭州市高新技*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 系統 | ||
本申請提供一種數據處理方法及系統。該方法中,Map節點對待處理數據進行處理,得到待寫入數據、待寫入數據對應的Rowkey、待寫入數據所屬表的標識;Shuffle節點根據待寫入數據所屬表的標識、待寫入數據對應的Rowkey確定處理待寫入數據的目標Reduce節點,并將待寫入數據、待寫入數據對應的Rowkey、待寫入數據所屬表的標識發送至目標Reduce節點;目標Reduce節點將待寫入數據、待寫入數據對應的Rowkey,寫入待寫入數據所屬表的臨時目錄下;DoBulkload節點將表的臨時目錄下的HFile文件,轉移至該表的實際目錄下。本申請可有效提升數據入庫效率。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種數據處理方法及系統。
背景技術
HBase是一個高可靠性、高性能、面向列、可伸縮的分布式數據庫,其支持海量數據存儲。參見圖1,為HBase數據庫的示意圖。
數據寫入數據庫需要經過一系列的處理。參見圖2,為現有基于MapReduce框架進行數據處理的結構示意圖。其中,左側Hadoop分布式文件系統(英文:Hadoop DistributedFile System,縮寫:HDFS)存儲有待處理文件,該待處理文件包含若干待處理數據。Map節點(Mapper1~Mapper3)從待處理文件中讀取待處理數據,對待處理數據進行處理,得到待寫入HBase數據庫的數據(簡稱待寫入數據)。Map節點將該待寫入數據通過寫入(Put)操作指令發送至HBase數據庫。HBase數據庫內部需要經過一系列的操作,才能生成可存儲于HBase數據庫底層的HFile文件。該數據入庫過程效率較低,且影響數據查詢。
發明內容
有鑒于此,本申請提出一種數據處理方法及系統,用以提升數據入庫效率,降低對數據查詢的影響。
為實現上述申請目的,本申請提供了如下技術方案:
第一方面,本申請提供一種數據處理方法,應用于數據處理系統,所述系統包括至少一個Map節點、Shuffle節點、至少一個Reduce節點以及DoBulkload節點,所述方法包括:
所述Map節點對待處理數據進行處理,得到待寫入數據、所述待寫入數據對應的行健Rowkey以及所述待寫入數據所屬表的標識;
所述Shuffle節點根據所述待寫入數據所屬表的標識和所述待寫入數據對應的Rowkey,確定處理所述待寫入數據的目標Reduce節點,并將所述待寫入數據、所述待寫入數據對應的Rowkey以及所述待寫入數據所屬表的標識發送至所述目標Reduce節點;
所述目標Reduce節點將所述待寫入數據和所述待寫入數據對應的Rowkey,寫入所述待寫入數據所屬表對應的臨時目錄下的HFile文件中;
所述DoBulkload節點將表對應的臨時目錄下的HFile文件,轉移至該表對應的實際目錄下。
可選的,所述Map節點對待處理數據進行處理,得到待寫入數據、所述待寫入數據對應的Rowkey以及所述待寫入數據所屬表的標識,包括:
獲取已創建的表的特征;
從所述待處理數據中,提取與所述表的特征匹配的待寫入數據;
根據預設的生成規則,生成所述待寫入數據對應的Rowkey;
將所述待寫入數據所匹配的表的標識,確定為所述待寫入數據所屬表的標識。
可選的,所述Shuffle節點根據所述待寫入數據所屬表的標識和所述待寫入數據對應的Rowkey,確定處理所述待寫入數據的目標Reduce節點之前,所述方法還包括:
所述Map節點根據所述待寫入數據對應的Rowkey和所述待寫入數據所屬表的標識,生成所述待寫入數據對應的目標鍵;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數據技術有限公司,未經新華三大數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911326062.0/2.html,轉載請聲明來源鉆瓜專利網。





