[發(fā)明專利]一種數(shù)據(jù)增量合并的方法及其裝置在審
| 申請?zhí)枺?/td> | 201210350470.1 | 申請日: | 2012-09-20 |
| 公開(公告)號: | CN103678392A | 公開(公告)日: | 2014-03-26 |
| 發(fā)明(設計)人: | 朱曉克 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 楊天嬌 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 增量 合并 方法 及其 裝置 | ||
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)庫技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)增量合并的方法及其裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)的普及和數(shù)字信息技術(shù)的飛速發(fā)展,幾乎每天都能產(chǎn)生海量的電子數(shù)據(jù),已經(jīng)很難衡量現(xiàn)今的社會中存儲的電子數(shù)據(jù)總量。如今不僅產(chǎn)生和存儲的電子數(shù)據(jù)數(shù)量龐大,而且數(shù)據(jù)本身也越來越趨于復雜化,對于海量數(shù)據(jù)的處理,已經(jīng)越來越受到關(guān)注。
在海量數(shù)據(jù)的處理中,海量數(shù)據(jù)增量合并技術(shù)是每個擁有大數(shù)據(jù)量企業(yè)都會采用的方法。海量數(shù)據(jù)增量合并技術(shù)是從生產(chǎn)系統(tǒng)數(shù)據(jù)庫中抓取當天新增和更新的數(shù)據(jù),和截止到前一天的全量數(shù)據(jù)做合并的技術(shù),傳統(tǒng)的海量數(shù)據(jù)合并要么是通過全表和增量數(shù)據(jù)做合并,保證數(shù)據(jù)的精確性,但是消耗巨大的計算資源;要么通過截取一段周期的全量數(shù)據(jù)和增量數(shù)據(jù)合并,通過損失數(shù)據(jù)準確性,保證性能可控。
但傳統(tǒng)的海量數(shù)據(jù)增量合并技術(shù)如果全量數(shù)據(jù)和增量做合并,因為數(shù)據(jù)量大,消耗計算資源多,任務運行時間長,而且大數(shù)據(jù)量合并容易引發(fā)系統(tǒng)內(nèi)存溢出等問題。如果截取固定時間(比如近三個月)和增量數(shù)據(jù)做合并,則影響數(shù)據(jù)的準確性,影響下游應用方對數(shù)據(jù)的使用。
發(fā)明內(nèi)容
本申請的目的是解決海量數(shù)據(jù)增量合并帶來的計算資源消耗和性能不可控的問題,提出一種海量數(shù)據(jù)增量合并的方法。
一種海量數(shù)據(jù)增量合并的方法,用于對擁有海量數(shù)據(jù)的數(shù)據(jù)倉庫全量表做增量合并,包括步驟:
設置分區(qū)字段;
抽取當前的增量數(shù)據(jù);
對抽取的增量數(shù)據(jù)的分區(qū)字段進行規(guī)整,確定具體的分區(qū)標識;
根據(jù)所述的分區(qū)標識,對全量表進行分區(qū)過濾,抽取出所述分區(qū)對應的分區(qū)數(shù)據(jù)表;
將所述增量數(shù)據(jù)與所述的分區(qū)數(shù)據(jù)表合并,得到更新后的分區(qū)數(shù)據(jù)表,并將更新后的分區(qū)數(shù)據(jù)表重新插回到全量表。
進一步地,所述的抽取當前的增量數(shù)據(jù)的方法還包括步驟:
確定抽取規(guī)則,按照抽取規(guī)則抽取當前的增量數(shù)據(jù)。常用的抽取規(guī)則包括按創(chuàng)建時間抽取,按修改時間抽取和按標志字段抽取,具體采用何種抽取規(guī)則需要根據(jù)數(shù)據(jù)表的具體屬性來進行選擇,保證抽取的是增量數(shù)據(jù)即可。
進一步地,所述的分區(qū)字段為固定不變的日期字段。數(shù)據(jù)倉庫中的數(shù)據(jù)表包含一條條的記錄,每條記錄包含多個標志字段,通常把記錄中固定不變的日期字段設置為分區(qū)字段,以便確定具體的分區(qū)。當采用固定不變的日期字段時,所述的分區(qū)標識為所述增量數(shù)據(jù)固定不變的日期字段對應的日期,分區(qū)標識也可以采用該日期字段對應的月份,根據(jù)數(shù)據(jù)量的大小做不同的設置。
當數(shù)據(jù)表是拉鏈表時,一種數(shù)據(jù)增量合并的方法的另一種實現(xiàn)方式,用于數(shù)據(jù)倉庫拉鏈表增量合并,所述的拉鏈表包括記錄生效時間字段和記錄失效時間字段,所述的拉鏈表分為拉鏈表當前分區(qū)和拉鏈表歷史分區(qū),所述拉鏈表增量合并的方法包括步驟:
抽取增量數(shù)據(jù);
將抽取的增量數(shù)據(jù)與所述拉鏈表當前分區(qū)進行比較;
將拉鏈表當前分區(qū)和增量數(shù)據(jù)中,在增量數(shù)據(jù)中存在最新更新的非最新數(shù)據(jù),插入到拉鏈表歷史分區(qū)中;
將增量數(shù)據(jù)中新增和最新更新的數(shù)據(jù)插入到拉鏈表當前分區(qū)中。
進一步地,所述的抽取增量數(shù)據(jù)的方法還包括步驟:確定抽取規(guī)則,按照抽取規(guī)則抽取增量數(shù)據(jù)。常用的抽取規(guī)則包括按創(chuàng)建時間抽取,按修改時間抽取和按標志字段抽取,具體采用何種抽取規(guī)則需要根據(jù)數(shù)據(jù)表的具體屬性來進行選擇,保證抽取的是增量數(shù)據(jù)即可。
進一步地,所述將拉鏈表當前分區(qū)和增量數(shù)據(jù)中,在增量數(shù)據(jù)中存在最新更新的非最新數(shù)據(jù),插入到拉鏈表歷史分區(qū)中,采用的是動態(tài)分區(qū)的更新方法,所述的動態(tài)分區(qū)的更新方法包括步驟:
根據(jù)所述非最新數(shù)據(jù)的記錄生效時間和記錄失效時間,將該非最新數(shù)據(jù)插入到所述記錄生效時間和記錄失效時間對應的歷史分區(qū)中。動態(tài)分區(qū)更新方法能夠按照記錄生效時間和記錄失效時間的值動態(tài)的把記錄插入到相應的分區(qū)中,同時更新多個分區(qū)。
進一步地,所述將拉鏈表當前分區(qū)和增量數(shù)據(jù)中,在增量數(shù)據(jù)中存在最新更新的非最新數(shù)據(jù),插入到拉鏈表歷史分區(qū)中還包括步驟:將所述的非最新數(shù)據(jù)的記錄失效時間變更為該記錄的更新時間。
本申請還提出了一種數(shù)據(jù)增量合并裝置,用于對擁有海量數(shù)據(jù)的數(shù)據(jù)倉庫全量表做增量合并,包括:
設置模塊,用于設置分區(qū)字段;
增量數(shù)據(jù)抽取模塊,用于抽取當前的增量數(shù)據(jù);
分區(qū)標識模塊,用于根據(jù)增量數(shù)據(jù),確定具體的分區(qū)標識;
分區(qū)數(shù)據(jù)抽取模塊,用于根據(jù)分區(qū)標識,從全量表中抽取所述分區(qū)標識對應的分區(qū)數(shù)據(jù)表;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210350470.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





