[發明專利]分布式數據自動結構化入庫方法及系統在審
| 申請號: | 201910971142.5 | 申請日: | 2019-10-14 |
| 公開(公告)號: | CN110737710A | 公開(公告)日: | 2020-01-31 |
| 發明(設計)人: | 施紅;陸曉 | 申請(專利權)人: | 神州數碼融信軟件有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/23;G06F16/27;G06F16/28;G06F9/54 |
| 代理公司: | 11303 北京方韜法業專利代理事務所(普通合伙) | 代理人: | 黨小林 |
| 地址: | 100000 北京市海淀區西北旺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 集群 入庫 分布式數據 自動結構 寫入 格式化 第三方系統 對象執行 消息隊列 原始消息 寫數據 源系統 解耦 獨立性 存儲 保證 | ||
本發明提供了一種分布式數據自動結構化入庫方法及系統。該方法包括:將需要入庫的原始消息同步或者異步的寫入kafka集群;利用kafka集群的消息隊列對寫入消息進行存儲;根據所述kafka集群的消息,對所述kafka集群中的格式化對象執行入庫操作。本發明提供的分布式數據自動結構化入庫方法及系統完成了本系統與第三方系統的解耦,保證源系統的獨立性和寫數據的穩定性。
技術領域
本發明涉及數據處理技術領域,特別是涉及一種分布式數據自動結構化入庫方法及系統。
背景技術
隨著大數據技術的逐漸成熟與完善,越來越多的大數據技術被應用于銀行系統,各個銀行都在逐步構建數據集市、大數據平臺等系統,但這些系統的數據來源、數據清洗、數據結構化、數據落地成為難點與痛點。
目前行業內處理數據報文清洗、結構化、落地的方式比較典型的就是集中式逐個開發模式。由于數據格式與數據內容各種各樣,落地數據庫各式各樣,以現有的典型技術,每一種數據格式或者每種數據內容和數據庫類型,都要開發對應的數據清洗、接口化以及入庫引擎。增加開發成本和開發難度,且當性能無法滿足要求時,只能通過增加服務器資源解決,無法實現橫向擴展。
比如:當前系統已擁有解析A系統提供xml格式數據并落地到oralce數據庫的能力,但當需要把B系統提供的分隔符格式的數據落地到db2數據庫時,需要開發一下內容:
1、開發解析分隔符格式數據的代碼;
2、由于數據節點復雜,需要開發結構化此數據的代碼;
3、開發此數據格式、內容的入庫模板;
4、開發模板數據寫入DB2的引擎;
5、如果因為處理內容增加導致服務器資源不夠,好需要增加服務器資源。
現有的數據入庫方式具有以下明顯的缺陷:
在開發成本方面,由于每種數據格式,每種數據內容以及每種數據庫類型都需要個性化開發,增加了開發成本。
在開發難度方面,由于解析每種格式數據的技術不同,數據庫操作驅動不同,在日常開發、升級的過程中,增加了開發難度,對開發本系統的人員要求較高。
在運維難度方面,由于每種報文內容都要用代碼進行逐個節點、字段解析,當源數據增加或修改數據節點的時候都需要修改對應的代碼,增加維護的難度與風險。
在性能瓶頸方面,由于是集中式部署,當服務器資源達不到要求時,從硬件層面只能通過增加機器資源解決,但一臺服務器所能增加的資源是有限的,加到一定程度后,就無法再通過增加資源解決性能問題。
在數據完整性方面,當數據庫宕機或系統出問題導致數據無法落地時,則此階段的數據則會丟失。
在事務一致性方面,落地的源數據為多節點的時候,可能需要提交到多個表中(特別對于關系型數據庫),在提交到多個表的過程中,由于不是同一個事務,當部分表提交失敗時,無法進行事務回退的操作,造成數據錯亂。
在獨立性方面,數據落地時,由于是同步提交,操作數據庫會消耗大量時間,在這個過程中會對上游系統進行干擾。如果入庫應用異常或者數據庫宕機更會對上游系統造成災難性后果。
在單一性方面,所有源數據只能一次消費,即源數據一般只能存到一個地方,不能同時落地到多個存儲空間。
發明內容
本發明要解決的技術問題是提供一種分布式數據自動結構化入庫方法及系統,完成了本系統與第三方系統的解耦,保證源系統的獨立性和寫數據的穩定性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于神州數碼融信軟件有限公司,未經神州數碼融信軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910971142.5/2.html,轉載請聲明來源鉆瓜專利網。





