[發明專利]一種基于多數據源的ETL方法及裝置有效

申請號：	202110862612.1	申請日：	2021-07-29
公開（公告）號：	CN113505119B	公開（公告）日：	2023-08-29
發明（設計）人：	劉曉文;李凡平;石柱國	申請（專利權）人：	青島以薩數據技術有限公司
主分類號：	G06F16/215	分類號：	G06F16/215;G06F16/21;G06F16/22;G06F16/2457;G06F16/25
代理公司：	北京酷愛智慧知識產權代理有限公司 11514	代理人：	何忠儀
地址：	266000 山東省青島***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于多數 etl 方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于多數據源的ETL方法及裝置，該方法包括：配置自定義數據；選擇輸出的目的表和字段的清洗規則；根據配置和選擇操作生成對應的消息格式，并寫入到kafka消息隊列；利用spark流式計算框架處理kafka消息隊列中的數據后，再將處理后的數據入庫；其有益效果是：(1)使用web頁面的方式簡化了運維開發人員接數據的操作，不用執行命令，不用修改配置文件，不用執行程序就可以輕松完成多種復雜數據的遷移和接入，降低了學習成本和運維難度；(2)利用制定了數據接入的通用規則，不同庫不同表的數據都可以寫成此格式，可以用這一套流程代碼來完成所有的不同源的數據ETL操作，大大減少了開發量。

技術領域

本發明涉及數據處理技術領域，具體涉及一種基于多數據源的ETL方法及裝置。

背景技術

目前大數據ETL(數據抽取、轉換和加載)的應用越來越廣泛，例如電商領域，金融領域和安防領域等。現有技術中，數據接入和存儲大多數都為一種數據來源和一個目標數據源定制開發一個ETL程序，但是隨著數據源越來越多，數據分析的維度也越來越多，所需要開發的程序也越來越多，進而造成開發成本和運維成本直線上升。

發明內容

針對現有技術中存在的缺陷，本發明實施例的目的在于提供一種基于多數據源的ETL方法及裝置。

為實現上述目的，第一方面，本發明實施例提供了一種基于多數據源的ETL方法，包括：

配置自定義數據；

選擇輸出的目的表和字段的清洗規則；其中，所述配置和選擇均通過在前端Web頁面中操作所得；

根據所述配置和選擇操作生成對應的消息格式，并寫入到kafka消息隊列；

利用spark流式計算框架處理所述kafka消息隊列中的數據后，再將處理后的數據入庫。

作為本申請的一種具體實施方式，所述清洗規則為封裝完成的函數；所述清洗規則包括：