[發明專利]一種數據合并方法及系統在審
| 申請號: | 201811132215.3 | 申請日: | 2018-09-27 |
| 公開(公告)號: | CN109241063A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 李英軍;余春祖;王娟娟 | 申請(專利權)人: | 中國銀行股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/215 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 古利蘭;王寶筠 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 全量數據 增量數據 合并操作 臨時目錄 數據合并 分區 大小設置 文件執行 壓縮處理 大數據 數據量 哈希 取模 主鍵 申請 輸出 壓縮 合并 情景 | ||
本申請公開了一種數據合并方法及系統,方法包括:對數據進行壓縮處理,基于壓縮后表的數據量大小設置分區個數,通過對增量數據層和全量數據層的主鍵哈希,按照分區個數取模,將增量數據和全量數據分別拆分到不同的臨時目錄,對增量數據層和全量數據層對應分區下的文件執行相應的合并操作,將合并操作結果輸出到臨時目錄和全量數據目錄。本申請在大數據的情景下,能夠高效的實現數據的合并。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種數據合并方法及系統。
背景技術
大數據應用下,尤其銀行系統有些時點類的表(如儲蓄表)量級很大(約數百G),每日增量數據也在數十G的量級,批量加工過程中,為了獲取每日最新的全量數據,就需要將增量數據表和全量數據表做合并獲取最新的全量數據。
現有的數據合并基本都是基于oracle(關系數據庫管理系統)等數據庫的一種sql(Structured Query Language,結構化查詢語言)語句,用來合并update語句和insert語句,但是大數據應用下,在HDFS(Hadoop分布式文件系統)集群上,基于hive(hive是基于Hadoop的一個數據倉庫工具)存儲如何進行數據合并,hive本身沒有成熟的數據合并技術,目前采用的數據合并方法在數據量很大時效率又很低,成為批量加工的瓶頸。
因此,實現在大數據的情景下對數據進行合并,且提高數據合并的效率,是一項亟待解決的問題。
發明內容
有鑒于此,本申請提供了一種數據合并方法,在大數據的情景下,能夠高效的實現數據的合并。
本申請提供了一種數據合并方法,所述方法包括:
對數據進行壓縮處理;
基于壓縮后表的數據量大小設置分區個數;
通過對增量數據層和全量數據層的主鍵哈希,按照分區個數取模,將增量數據和全量數據分別拆分到不同的臨時目錄;
對增量數據層和全量數據層對應分區下的文件執行相應的合并操作;
將合并操作結果輸出到臨時目錄和全量數據目錄。
優選地,所述對數據進行壓縮處理包括:
采用ORC格式對數據進行壓縮處理。
優選地,所述對增量數據層和全量數據層對應分區下的文件執行相應的合并操作包括:
增量數據層T+1日對應的臨時目錄下每個分區下和全量數據層T日對應臨時目錄下每個分區下,相同主鍵的,取增量數據層臨時目錄對應的記錄。
優選地,所述對增量數據層和全量數據層對應分區下的文件執行相應的合并操作包括:
增量數據層T+1日對應的臨時目錄下每個分區下和全量數據層T日對應臨時目錄下每個分區下,增量數據層有記錄,全量數據層無記錄的,取增量數據層臨時目錄下的記錄。
優選地,所述對增量數據層和全量數據層對應分區下的文件執行相應的合并操作包括:
增量數據層T+1日對應的臨時目錄下每個分區下和全量數據層T日對應臨時目錄下每個分區下,增量數據層無記錄,全量數據層有記錄的,取全量數據層臨時目錄下的記錄。
一種數據合并系統,包括:
處理模塊,用于對數據進行壓縮處理;
設置模塊,用于基于壓縮后表的數據量大小設置分區個數;
拆分模塊,用于通過對增量數據層和全量數據層的主鍵哈希,按照分區個數取模,將增量數據和全量數據分別拆分到不同的臨時目錄;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀行股份有限公司,未經中國銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811132215.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種政務數據目錄的生成方法及裝置
- 下一篇:一種數據庫插入排序方法





