[發(fā)明專利]數(shù)據(jù)處理方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911326062.0 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111159112B | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設計)人: | 王勝杰 | 申請(專利權(quán))人: | 新華三大數(shù)據(jù)技術(shù)有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F16/172 |
| 代理公司: | 北京博思佳知識產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 高萍 |
| 地址: | 450000 河南省鄭州市高新技*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)處理 方法 系統(tǒng) | ||
本申請?zhí)峁┮环N數(shù)據(jù)處理方法及系統(tǒng)。該方法中,Map節(jié)點對待處理數(shù)據(jù)進行處理,得到待寫入數(shù)據(jù)、待寫入數(shù)據(jù)對應的Rowkey、待寫入數(shù)據(jù)所屬表的標識;Shuffle節(jié)點根據(jù)待寫入數(shù)據(jù)所屬表的標識、待寫入數(shù)據(jù)對應的Rowkey確定處理待寫入數(shù)據(jù)的目標Reduce節(jié)點,并將待寫入數(shù)據(jù)、待寫入數(shù)據(jù)對應的Rowkey、待寫入數(shù)據(jù)所屬表的標識發(fā)送至目標Reduce節(jié)點;目標Reduce節(jié)點將待寫入數(shù)據(jù)、待寫入數(shù)據(jù)對應的Rowkey,寫入待寫入數(shù)據(jù)所屬表的臨時目錄下;DoBulkload節(jié)點將表的臨時目錄下的HFile文件,轉(zhuǎn)移至該表的實際目錄下。本申請可有效提升數(shù)據(jù)入庫效率。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法及系統(tǒng)。
背景技術(shù)
HBase是一個高可靠性、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫,其支持海量數(shù)據(jù)存儲。參見圖1,為HBase數(shù)據(jù)庫的示意圖。
數(shù)據(jù)寫入數(shù)據(jù)庫需要經(jīng)過一系列的處理。參見圖2,為現(xiàn)有基于MapReduce框架進行數(shù)據(jù)處理的結(jié)構(gòu)示意圖。其中,左側(cè)Hadoop分布式文件系統(tǒng)(英文:Hadoop DistributedFile System,縮寫:HDFS)存儲有待處理文件,該待處理文件包含若干待處理數(shù)據(jù)。Map節(jié)點(Mapper1~Mapper3)從待處理文件中讀取待處理數(shù)據(jù),對待處理數(shù)據(jù)進行處理,得到待寫入HBase數(shù)據(jù)庫的數(shù)據(jù)(簡稱待寫入數(shù)據(jù))。Map節(jié)點將該待寫入數(shù)據(jù)通過寫入(Put)操作指令發(fā)送至HBase數(shù)據(jù)庫。HBase數(shù)據(jù)庫內(nèi)部需要經(jīng)過一系列的操作,才能生成可存儲于HBase數(shù)據(jù)庫底層的HFile文件。該數(shù)據(jù)入庫過程效率較低,且影響數(shù)據(jù)查詢。
發(fā)明內(nèi)容
有鑒于此,本申請?zhí)岢鲆环N數(shù)據(jù)處理方法及系統(tǒng),用以提升數(shù)據(jù)入庫效率,降低對數(shù)據(jù)查詢的影響。
為實現(xiàn)上述申請目的,本申請?zhí)峁┝巳缦录夹g(shù)方案:
第一方面,本申請?zhí)峁┮环N數(shù)據(jù)處理方法,應用于數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括至少一個Map節(jié)點、Shuffle節(jié)點、至少一個Reduce節(jié)點以及DoBulkload節(jié)點,所述方法包括:
所述Map節(jié)點對待處理數(shù)據(jù)進行處理,得到待寫入數(shù)據(jù)、所述待寫入數(shù)據(jù)對應的行健Rowkey以及所述待寫入數(shù)據(jù)所屬表的標識;
所述Shuffle節(jié)點根據(jù)所述待寫入數(shù)據(jù)所屬表的標識和所述待寫入數(shù)據(jù)對應的Rowkey,確定處理所述待寫入數(shù)據(jù)的目標Reduce節(jié)點,并將所述待寫入數(shù)據(jù)、所述待寫入數(shù)據(jù)對應的Rowkey以及所述待寫入數(shù)據(jù)所屬表的標識發(fā)送至所述目標Reduce節(jié)點;
所述目標Reduce節(jié)點將所述待寫入數(shù)據(jù)和所述待寫入數(shù)據(jù)對應的Rowkey,寫入所述待寫入數(shù)據(jù)所屬表對應的臨時目錄下的HFile文件中;
所述DoBulkload節(jié)點將表對應的臨時目錄下的HFile文件,轉(zhuǎn)移至該表對應的實際目錄下。
可選的,所述Map節(jié)點對待處理數(shù)據(jù)進行處理,得到待寫入數(shù)據(jù)、所述待寫入數(shù)據(jù)對應的Rowkey以及所述待寫入數(shù)據(jù)所屬表的標識,包括:
獲取已創(chuàng)建的表的特征;
從所述待處理數(shù)據(jù)中,提取與所述表的特征匹配的待寫入數(shù)據(jù);
根據(jù)預設的生成規(guī)則,生成所述待寫入數(shù)據(jù)對應的Rowkey;
將所述待寫入數(shù)據(jù)所匹配的表的標識,確定為所述待寫入數(shù)據(jù)所屬表的標識。
可選的,所述Shuffle節(jié)點根據(jù)所述待寫入數(shù)據(jù)所屬表的標識和所述待寫入數(shù)據(jù)對應的Rowkey,確定處理所述待寫入數(shù)據(jù)的目標Reduce節(jié)點之前,所述方法還包括:
所述Map節(jié)點根據(jù)所述待寫入數(shù)據(jù)對應的Rowkey和所述待寫入數(shù)據(jù)所屬表的標識,生成所述待寫入數(shù)據(jù)對應的目標鍵;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華三大數(shù)據(jù)技術(shù)有限公司,未經(jīng)新華三大數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911326062.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





