[發明專利]基于ETL的輕量化自定義源數據分解讀取系統和方法有效
| 申請號: | 201811345080.9 | 申請日: | 2018-11-13 |
| 公開(公告)號: | CN109635023B | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 顏文德;徐明;葉祖鋒;王華松 | 申請(專利權)人: | 廣州歐賽斯信息科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/215;G06F16/28;G06F16/2458 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 胡輝 |
| 地址: | 510000 廣東省廣州市高新技術產業開發*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 etl 量化 自定義 數據 分解 讀取 系統 方法 | ||
本發明公開了一種基于ETL的輕量化自定義源數據分解讀取系統和方法,該系統包括:源數據庫,用于存儲原始數據;第一至第N自定義ETL工具,用于對源數據庫中的第一至第N自定義內容對應的數據進行清洗和統計,然后將經過清洗的數據和統計結果存入數據倉庫;N大于等于2;數據倉庫,用于存儲經過數據清洗的數據和統計結果,以及為數據分析系統提供經過清洗的數據和/或統計結果。本發明通過多個自定義ETL工具對元數據進行分解讀取,然后分別進行數據清洗和統計,簡化了傳統ETL技術的體系結構,不僅便于維護還優化了系統的數據處理性能,同時,本發明具有更好的擴展性。本發明可以廣泛應用于數據處理技術。
技術領域
本發明涉及數據處理技術,尤其是一種基于ETL的輕量化自定義源數據分解讀取系統和方法。
背景技術
目前,由于大數據的高速發展,越來越多的數據需要高效率地進行數據轉換。隨著Web應用吞吐量的劇增,傳統的數據轉換方式已經不能滿足當前的需求,因而促使了大量數據轉換技術的誕生。但是目前大多數的數據分析系統主要基于傳統的數據庫,在對多個數據進行分析統計時,需要采用大量的查詢語句進行查詢,其查詢的數據量非常大,導致系統效率低。例如,如果分析系統需要統計數據A+數據B+數據C+數據D的總量時,傳統的數據分析系統只能先查詢數據庫中有多少個數據A,數據庫中有多少個數據B,數據庫中有多少個數據C和數據庫中存在多少個數據D,然后將數據A、數據B、數據C和數據D的總量相加得到結果,即使是同樣的分析內容,在每一次分析時,分析系統都需要重復進行查詢。這樣會導致數據分析系統在分析數據時效率低。
隨著ETL技術誕生,ETL技術可以將數據進行預處理,有助于提升數據分析系統的處理效率。但是傳統的ETL技術體系較為龐大和復雜,從而導致傳統的ETL技術可擴展性弱和維護困難。
發明內容
為解決上述技術問題,本發明的目的在于:提供一種可擴展性強且易于維護的基于ETL的輕量化自定義源數據分解讀取系統和方法。
本發明所采取的第一種技術方案是:
一種基于ETL的輕量化自定義源數據分解讀取系統,包括:
源數據庫,用于存儲原始數據;
第一至第N自定義ETL工具,用于對源數據庫中的第一至第N自定義內容對應的數據進行清洗和統計,然后將經過清洗的數據和統計結果存入數據倉庫;N大于等于2;
數據倉庫,用于存儲經過數據清洗的數據和統計結果,以及為數據分析系統提供經過清洗的數據和/或統計結果。
進一步,所述原始數據包括系統自動采集的表格數據和人工輸入的數據。
進一步,所述對源數據庫中的第一至第N自定義內容對應的數據進行清洗和統計,其具體包括:
第X自定義ETL工具在源數據庫中抽取第X自定義內容對應的數據;其中,X∈[1,N];
第X自定義ETL工具根據其設定處理規則,對抽取出來的第X自定義內容對應的數據進行數據清洗和統計。
進一步,所述數據倉庫包括數據型的數據倉庫和統計型的數據倉庫;所述數據型的數據倉庫用于存儲經過清洗的數據,所述統計型的數據倉庫用于存儲數據的統計結果。
本發明所采取的第二種技術方案是:
一種基于ETL的輕量化自定義源數據分解讀取方法,包括以下步驟:
獲取原始數據,將原始數據存入源數據庫中;
調用第一至第N自定義ETL工具對源數據庫中的第一至第N自定義內容對應的數據進行清洗和統計;
將經過數據清洗的數據和統計結果存儲至數據倉庫。
進一步,還包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州歐賽斯信息科技有限公司,未經廣州歐賽斯信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811345080.9/2.html,轉載請聲明來源鉆瓜專利網。





