[發明專利]一種ETL中基于規則配置的數據處理的系統和方法在審
| 申請號: | 202011539491.9 | 申請日: | 2020-12-23 |
| 公開(公告)號: | CN112527885A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 李振;魯賓賓;曾琦凱;王云端;陳楓 | 申請(專利權)人: | 民生科技有限責任公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25 |
| 代理公司: | 北京金智普華知識產權代理有限公司 11401 | 代理人: | 巴曉艷 |
| 地址: | 101300 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 etl 基于 規則 配置 數據處理 系統 方法 | ||
1.一種ETL中基于規則配置的數據處理的系統,其特征在于,所述系統包括:配置信息生成模塊、配置加載模塊、配置解析模塊、構建數據處理鏈模塊和數據處理模塊;
其中,所述配置信息生成模塊,用于基于實際數據的處理場景確認自定義子單元的配置信息;
所述配置加載模塊,用于將所述配置信息生成模塊的配置信息進行加載;
所述配置解析模塊,用于將加載的配置信息轉化;
所述構建數據處理鏈模塊,用于根據轉化后配置信息構建需調用自定義子單元的的數據處理鏈路順序,完成各個處理子單元和執行引擎完成初始化;
所述數據模塊,抽取待處理數據,按照所述構建數據處理鏈模塊確認的順序對待處理數據進行加工,將加工生成的數據存儲在加工數據緩存區,并輸出加工后數據。
2.根據權利要求1所述的系統,其特征在于,所述自定義子單元包括:
源數據分析子單元,用于定義源數據格式及基本信息的描述,
處理鏈子單元,用于使用數組的數據結構進行組織調用順序,
轉化子單元,用于對數據進行數據類型轉化;
設置子單元,用于設置字段的值,重置字段值或新增字段;
解析子單元,用于字符串解析,支持按字符切割或正則匹配切割;
映射子單元,用于字段映射;
輸出子單元,用于定義數據輸出格式;支持文件格式為JDBC、FILE、HDFS和KAFKA。
3.根據權利要求2所述的系統,其特征在于,所述自定義子單元還包括判斷子單元,所述判斷子單元,用于提供邏輯判斷的語義支持。
4.一種如權利要求1-3任一項所述的ETL中基于規則配置的數據處理系統的處理方法,其特征在于,所述方法具體包括以下步驟:
S1)基于實際數據的處理場景確認自定義子單元的配置信息;
S2)加載配置信息,并轉化;
S3)用于根據轉化后配置信息構建需調用自定義子單元的的數據處理鏈路順序,生成數據處理策略,完成自定義子單元和執行引擎完成初始化,
S4)抽取待處理數據并按照數據處理策略進行分加工,并輸出加工后的數據。
5.根據權利要求4所述的方法,其特征在于,所述方法包括判斷步驟:
用于根據加工后的數據是否符合實際數據的處理場的要求進行判斷,如果符合則保留加工后數據,如果不符合,則不保留加工后數據,處理下一條待處理數據。
6.根據權利要求5所述的方法,其特征在于,所述S1)的具體為:
S1.1)先從配置中心加載配置信息;
S1.2)用于將加載的配置信息轉化為。
7.根據權利要求5所述的方法,其特征在于,所述S2)的具體為:
S2.1)以處理鏈子單元作為執行入口,處理鏈子單元根據剩余的各個處理子單元的定義確認各個處理子單元的調用邏輯,完成處理策略;
S2.2)將各個處理子單元進行初始化,執行引擎初始化完。
8.根據權利要求5所述的方法,其特征在于,所述S3)的具體為:
S3.1)將待加工數據作為輸入數據流傳入處理鏈子單元中,處理鏈子單元將數據緩存在原數據緩存區,
S3.2)執行引擎根據處理策略對數據緩存區的數據加工處理,
S3.3)執行過程中,將加工生成的數據存儲在加工數據緩存區,
S3.4)輸出子單元輸出的數據格式及數據內容。
9.一種實現如權利要求4-8任一項所述的基于規則配置的數據處理方法的信息處理終端。
10.一種計算機可讀存儲介質,包括指令,當其在計算機上運行時,使得計算機執行如權利要求4-8任意一項所述的一種ETL中基于規則配置的數據處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于民生科技有限責任公司,未經民生科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011539491.9/1.html,轉載請聲明來源鉆瓜專利網。





