[發明專利]增量數據推送系統和方法有效
| 申請號: | 201510038350.1 | 申請日: | 2015-01-26 |
| 公開(公告)號: | CN104516989B | 公開(公告)日: | 2018-07-03 |
| 發明(設計)人: | 石冠雄;王超 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 魯山;孫志湧 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 增量數據 推送系統 抓取 分布式調度 過濾處理 合并處理 任務分配 數據字段 增量解析 中間存儲 導出 推送 調度 | ||
本發明提供一種增量數據推送系統和方法。該增量數據推送方法包括在分布式調度中心的任務分配及調度下進行的如下處理:抓取處理;增量解析處理;邏輯主題合并處理;中間存儲處理;數據字段過濾處理;以及導出處理。
技術領域
本發明涉及一種數據推送系統和方法,更具體地,涉及一種基于增量同步的分布式任務分解和中間數據的生成與合并邏輯的增量數據推送系統和方法。
背景技術
由于云計算技術的發展,越來越多的第三方開發人員使用了云平臺技術。其中很大一部分OLAP(On-Line Analytical Processing:聯機分析處理)應用都需要一些基于關系數據庫的共享數據信息,而準確的將共享數據庫的數據定時提供給分析系統成為常見的需求內容。
在現有技術中,數據提供系統定期通過數據庫全量備份,將某一個時刻的數據快照保存為文件形式,然后直接導入目標數據平臺或是通過程序對全量數據進行處理后導入。
上述現有技術中存在以下缺點:1).數據重復度高:每次數據同步都是抓取的某一時刻的全量數據快照,而其中有很大一部分數據都是重復的,對計算及吞吐性能是比較大的浪費;2).時效性差:由于抓取的全量數據耗時較久,所以無法較為頻繁的進行數據的同步,對于頻繁更新的數據與真實數據的差異較大;3).對數據庫性能有影響:每次同步數據需要對數據庫進行快照抓取,對于運行壓力較大的數據庫增加了其運行負載,雖然可以通過增加slave庫進行解決,但是slave同步也存在穩定性及延遲等多方面問題,對于權限控制也較為不利;4).數據同步為單點操作:由于全量快照的原理,操作必須由單一線程進行,如果出現異常,操作必須從頭開始。而如果采用多線程分解將導致數據一致性出現問題。
發明內容
本發明要解決的技術問題
減少數據導出的重復性及對數據庫性能的影響。在不影響數據庫性能與數據準確性的前提下,增加容錯性與處理性能。
解決方案
根據本發明的第一方面,提供了一種增量數據推送系統,包括:數據庫服務器,用于存儲關系數據庫,并且存儲由所述關系數據庫所產生的二進制日志文件;分布式調度中心,用于任務分配及調度;分布式工作集群,所述分布式工作集群在所述分布式調度中心的調度下,用于從所述數據庫服務器抓取所述二進制日志文件,基于分布式的處理對所述二進制日志文件進行增量解析,以解析出所述二進制日志文件中的增量記錄,將增量記錄中的屬于同一邏輯主題的數據合并且保存在與所述同一邏輯主題相對應的中間文件中,將所述中間文件存儲在中間存儲單元中,依賴于業務需求對所存儲的中間文件中的規定的字段進行過濾處理,根據不同業務系統的導出需求,將經過過濾處理之后的所述中間文件進行投影與合并并且保存為相應的業務系統所需要的格式的導出任務數據文件,然后傳輸至相應的業務系統;業務系統,向所述分布式工作集群發出導出任務的導出需求,并從所述分布式工作集群接收所述導出任務數據文件。
根據本發明的第二方面,提供了一種增量數據推送方法,包括在分布式調度中心的任務分配及調度下進行的如下處理:抓取處理,用于從數據庫服務器抓取關系數據庫的二進制日志文件;增量解析處理,基于分布式的處理對所述二進制日志文件進行增量解析,以解析出所述二進制日志文件中的增量記錄;邏輯主題合并處理,將增量記錄中的屬于同一邏輯主題的數據合并;中間存儲處理,將屬于同一邏輯主題的經合并的數據保存在與所述同一邏輯主題相對應的中間文件中,并且將所述中間文件存儲在中間存儲單元中;數據字段過濾處理,依賴于業務需求對所存儲的中間文件中的規定的字段進行過濾處理;以及導出處理,根據不同業務系統的導出需求,將經過過濾處理之后的所述中間文件進行投影與合并并且保存為相應的業務系統所需要的格式的導出任務數據文件,然后傳輸至相應的業務系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510038350.1/2.html,轉載請聲明來源鉆瓜專利網。





