[發明專利]一種數據合并方法及系統在審

申請號：	201811132215.3	申請日：	2018-09-27
公開（公告）號：	CN109241063A	公開（公告）日：	2019-01-18
發明（設計）人：	李英軍;余春祖;王娟娟	申請（專利權）人：	中國銀行股份有限公司
主分類號：	G06F16/22	分類號：	G06F16/22;G06F16/215
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	古利蘭;王寶筠
地址：	100818 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	全量數據增量數據合并操作臨時目錄數據合并分區大小設置文件執行壓縮處理大數據數據量哈希取模主鍵申請輸出壓縮合并情景
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種數據合并方法及系統，方法包括：對數據進行壓縮處理，基于壓縮后表的數據量大小設置分區個數，通過對增量數據層和全量數據層的主鍵哈希，按照分區個數取模，將增量數據和全量數據分別拆分到不同的臨時目錄，對增量數據層和全量數據層對應分區下的文件執行相應的合并操作，將合并操作結果輸出到臨時目錄和全量數據目錄。本申請在大數據的情景下，能夠高效的實現數據的合并。

技術領域

本申請涉及數據處理技術領域，尤其涉及一種數據合并方法及系統。

背景技術

大數據應用下，尤其銀行系統有些時點類的表(如儲蓄表)量級很大(約數百G)，每日增量數據也在數十G的量級，批量加工過程中，為了獲取每日最新的全量數據，就需要將增量數據表和全量數據表做合并獲取最新的全量數據。

現有的數據合并基本都是基于oracle(關系數據庫管理系統)等數據庫的一種sql(Structured Query Language，結構化查詢語言)語句，用來合并update語句和insert語句，但是大數據應用下，在HDFS(Hadoop分布式文件系統)集群上，基于hive(hive是基于Hadoop的一個數據倉庫工具)存儲如何進行數據合并，hive本身沒有成熟的數據合并技術，目前采用的數據合并方法在數據量很大時效率又很低，成為批量加工的瓶頸。

因此，實現在大數據的情景下對數據進行合并，且提高數據合并的效率，是一項亟待解決的問題。

發明內容

有鑒于此，本申請提供了一種數據合并方法，在大數據的情景下，能夠高效的實現數據的合并。

本申請提供了一種數據合并方法，所述方法包括：

對數據進行壓縮處理；

基于壓縮后表的數據量大小設置分區個數；

通過對增量數據層和全量數據層的主鍵哈希，按照分區個數取模，將增量數據和全量數據分別拆分到不同的臨時目錄；

對增量數據層和全量數據層對應分區下的文件執行相應的合并操作；

將合并操作結果輸出到臨時目錄和全量數據目錄。

優選地，所述對數據進行壓縮處理包括：

采用ORC格式對數據進行壓縮處理。

優選地，所述對增量數據層和全量數據層對應分區下的文件執行相應的合并操作包括：