[發明專利]分布式數據自動結構化入庫方法及系統在審

申請號：	201910971142.5	申請日：	2019-10-14
公開（公告）號：	CN110737710A	公開（公告）日：	2020-01-31
發明（設計）人：	施紅;陸曉	申請（專利權）人：	神州數碼融信軟件有限公司
主分類號：	G06F16/25	分類號：	G06F16/25;G06F16/23;G06F16/27;G06F16/28;G06F9/54
代理公司：	11303 北京方韜法業專利代理事務所(普通合伙)	代理人：	黨小林
地址：	100000 北京市海淀區西北旺***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	集群入庫分布式數據自動結構寫入格式化第三方系統對象執行消息隊列原始消息寫數據源系統解耦獨立性存儲保證
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種分布式數據自動結構化入庫方法及系統。該方法包括：將需要入庫的原始消息同步或者異步的寫入kafka集群；利用kafka集群的消息隊列對寫入消息進行存儲；根據所述kafka集群的消息，對所述kafka集群中的格式化對象執行入庫操作。本發明提供的分布式數據自動結構化入庫方法及系統完成了本系統與第三方系統的解耦，保證源系統的獨立性和寫數據的穩定性。

技術領域

本發明涉及數據處理技術領域，特別是涉及一種分布式數據自動結構化入庫方法及系統。

背景技術

隨著大數據技術的逐漸成熟與完善，越來越多的大數據技術被應用于銀行系統，各個銀行都在逐步構建數據集市、大數據平臺等系統，但這些系統的數據來源、數據清洗、數據結構化、數據落地成為難點與痛點。

目前行業內處理數據報文清洗、結構化、落地的方式比較典型的就是集中式逐個開發模式。由于數據格式與數據內容各種各樣，落地數據庫各式各樣，以現有的典型技術，每一種數據格式或者每種數據內容和數據庫類型，都要開發對應的數據清洗、接口化以及入庫引擎。增加開發成本和開發難度，且當性能無法滿足要求時，只能通過增加服務器資源解決，無法實現橫向擴展。

比如：當前系統已擁有解析A系統提供xml格式數據并落地到oralce數據庫的能力，但當需要把B系統提供的分隔符格式的數據落地到db2數據庫時，需要開發一下內容：

1、開發解析分隔符格式數據的代碼；

2、由于數據節點復雜，需要開發結構化此數據的代碼；

3、開發此數據格式、內容的入庫模板；

4、開發模板數據寫入DB2的引擎；

5、如果因為處理內容增加導致服務器資源不夠，好需要增加服務器資源。

現有的數據入庫方式具有以下明顯的缺陷：

在開發成本方面，由于每種數據格式，每種數據內容以及每種數據庫類型都需要個性化開發，增加了開發成本。

在開發難度方面，由于解析每種格式數據的技術不同，數據庫操作驅動不同，在日常開發、升級的過程中，增加了開發難度，對開發本系統的人員要求較高。

在運維難度方面，由于每種報文內容都要用代碼進行逐個節點、字段解析，當源數據增加或修改數據節點的時候都需要修改對應的代碼，增加維護的難度與風險。

在性能瓶頸方面，由于是集中式部署，當服務器資源達不到要求時，從硬件層面只能通過增加機器資源解決，但一臺服務器所能增加的資源是有限的，加到一定程度后，就無法再通過增加資源解決性能問題。

在數據完整性方面，當數據庫宕機或系統出問題導致數據無法落地時，則此階段的數據則會丟失。