[發明專利]一種ETL數據質量判定與反饋方法在審
| 申請號: | 202010905210.0 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112199423A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 李毅仁;申培;郝亮;林亞團;明勇杰;賈永坡;趙海濱;魏曉飛;邢偉晗 | 申請(專利權)人: | 河鋼數字技術股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/2458;G06F16/215;G06F16/28 |
| 代理公司: | 北京睿博行遠知識產權代理有限公司 11297 | 代理人: | 龔家驊 |
| 地址: | 053400 河北省衡水市武邑歡龍莊*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 etl 數據 質量 判定 反饋 方法 | ||
1.一種ETL數據質量判定與反饋方法,其特征在于,所述方法包括:
調度對待處理數據進行ETL處理的ETL任務,并解析獲取所述ETL任務所指示出的輸出數據表的標識信息;
通過查詢用于描述該標識信息所對應的輸出數據表的元數據信息獲取ETL數據處理過程的判定指標,所述判定指標指示按照指定方式對所述ETL數據處理過程的輸出數據中的指定字段進行統計或運算;
執行所述ETL任務,得到目標數據并存儲至數據倉庫,其中,所述目標數據包括采用所述ETL任務對所述待處理數據進行ETL處理后得到的第一數據和用于唯一標識所述第一數據的標記信息;
根據所述判定指標的結果值和預設期望值的比較結果確定對所述ETL數據處理過程的質量判定結果;
在根據ETL處理日志確定所述ETL任務失敗時,根據所述ETL處理日志和所述標記信息從所述數據倉庫中確定出臟數據,并對所述臟數據進行清理。
2.如權利要求1所述的方法,其特征在于,在調度對待處理數據進行ETL處理的ETL任務之前,所述方法還包括:
同步源數據至所述數據倉庫并設置預警閾值,當所述源數據在所述預警閾值內時,對所述源數據進行標準化處理得到標準化源數據;
對所述標準化源數據進行元數據管理,通過元數據將海量報表中的目標表、目標字段進行業務描述得到第二數據;
根據預設業務規則和預設數據標準從所述第二數據中提取所述待處理數據。
3.如權利要求1所述的方法,其特征在于,通過查詢用于描述該標識信息所對應的輸出數據表的元數據信息獲取ETL數據處理過程的判定指標,包括以下之一或任意組合:
針對具有總量統計意義的數值型字段,將所述ETL數據處理過程的輸出數據中該字段的數值進行累加;
針對具有平均值統計意義的數值型字段,將所述ETL數據處理過程的輸出數據中該字段的數值求平均值。
4.如權利要求1所述的方法,其特征在于,根據所述ETL處理日志和所述標記信息從所述數據倉庫中確定出臟數據,并對所述臟數據進行清理,具體為:
遍歷ETL處理日志,若所述ETL處理日志中任務狀態標識指示所述ETL任務執行失敗時,從所述ETL處理日志中獲取所述標記信息;
將與獲取到的所述標記信息相匹配的數據倉庫中的標記信息對應的目標數據確定為臟數據并清理。
5.如權利要求1所述的方法,其特征在于,所述標記信息包括所述調度對待處理數據進行ETL處理的ETL任務的調度ID和所述ETL任務的任務ID。
6.如權利要求2所述的方法,其特征在于,在同步源數據至所述數據倉庫之前,還包括:
接收用戶設置的ETL處理規則,根據所述ETL處理規則對所述待處理數據進行相應的ETL處理,所述ETL處理規則包括根據預設的結構化查詢語言SQL的處理標準設置的ETL處理規則。
7.如權利要求2所述的方法,其特征在于,同步源數據至所述數據倉庫,具體為:
依據數據源的類型同步源數據,所述數據源包括數據源名稱、數據源類型和數據源中數據表的訪問方式。
8.如權利要求4所述的方法,其特征在于,在將與獲取到的所述標記信息相匹配的數據倉庫中的標記信息對應的目標數據確定為臟數據之后,所述方法還包括:
基于可視化預警報表對所述臟數據進行可視化,突出顯示異常的數據庫表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河鋼數字技術股份有限公司,未經河鋼數字技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010905210.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種倒裝芯片封裝結構及其制造方法
- 下一篇:一種箱根草組織培養方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





