[發(fā)明專利]一種ETL數(shù)據(jù)質(zhì)量判定與反饋方法在審
| 申請?zhí)枺?/td> | 202010905210.0 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112199423A | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設計)人: | 李毅仁;申培;郝亮;林亞團;明勇杰;賈永坡;趙海濱;魏曉飛;邢偉晗 | 申請(專利權)人: | 河鋼數(shù)字技術股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/2458;G06F16/215;G06F16/28 |
| 代理公司: | 北京睿博行遠知識產(chǎn)權代理有限公司 11297 | 代理人: | 龔家驊 |
| 地址: | 053400 河北省衡水市武邑歡龍莊*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 etl 數(shù)據(jù) 質(zhì)量 判定 反饋 方法 | ||
本發(fā)明公開了一種ETL數(shù)據(jù)質(zhì)量判定與反饋方法,該方法包括:獲取ETL數(shù)據(jù)處理過程的判定指標,根據(jù)所述判定指標的結(jié)果值和預設期望值的比較結(jié)果確定對所述ETL數(shù)據(jù)處理過程的質(zhì)量判定結(jié)果,并在根據(jù)ETL處理日志確定所述ETL任務失敗時,根據(jù)所述ETL處理日志和目標數(shù)據(jù)中攜帶的標記信息從所述數(shù)據(jù)倉庫中確定出所述臟數(shù)據(jù),并對所述臟數(shù)據(jù)進行清理,從而進一步提高了對ETL數(shù)據(jù)質(zhì)量判定的準確性,并通過質(zhì)量判定結(jié)果進行反饋,及時發(fā)現(xiàn)ETL處理過程中的問題,保證了輸出數(shù)據(jù)的準確性。
技術領域
本申請涉及ETL管理領域,更具體地,涉及一種ETL數(shù)據(jù)質(zhì)量判定與反饋方法。
背景技術
目前行業(yè)積累了大量數(shù)據(jù),數(shù)據(jù)的容量、種類和變化都在急劇增加,但大數(shù)據(jù)尚未充分利用,其中蘊藏的巨大價值有待挖掘。大數(shù)據(jù)往往具有多源異構特性,來自不同的、分散的業(yè)務系統(tǒng),存在結(jié)構化數(shù)據(jù)、半結(jié)構化數(shù)據(jù)、非結(jié)構化數(shù)據(jù)等多種類型,難以抽取并轉(zhuǎn)換成所需的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)呈現(xiàn)出大容量、多樣式、交互頻繁等特征,隨著采集數(shù)據(jù)的不斷增加,數(shù)據(jù)處理邏輯逐漸復雜,并且面臨著海量多源異構數(shù)據(jù)在不同數(shù)據(jù)庫之間傳輸效率問題。
數(shù)據(jù)通常存在于數(shù)據(jù)庫、文件、流量日志等存儲媒介中,通過抽取-轉(zhuǎn)換-裝載(Extract-Transform-Load,簡稱ETL)處理工具可以將分散的數(shù)據(jù)采集到數(shù)據(jù)倉庫中或者數(shù)據(jù)管理平臺中。
目前對ETL系統(tǒng)的數(shù)據(jù)處理進行監(jiān)控的技術方案中,ETL處理的過程通常遵循以下順序:數(shù)據(jù)抽取—數(shù)據(jù)清洗—數(shù)據(jù)轉(zhuǎn)換—數(shù)據(jù)裝載—數(shù)據(jù)實事表—……—報表輸出/回流業(yè)務前臺。可以看出,這個過程中的每一個數(shù)據(jù)處理過程的輸出就是后一個數(shù)據(jù)處理過程的輸入,因此只要其中的任一個過程出錯,就會將錯誤層層傳遞,從而影響ETL的質(zhì)量。然而,ETL建設過程通常是一個循序漸近的過程,歷時時間比較長,而且這中間歷經(jīng)業(yè)務的反復變化、ETL開發(fā)人員的輪換等,如果要review整個ETL處理過程將特別耗時,而且由于數(shù)據(jù)源復雜等問題導致在數(shù)據(jù)處理的理解或錯誤原因的分析上存在差異,這將影響對ETL系統(tǒng)質(zhì)量的判斷的準確性。
因此,如何提高對ETL數(shù)據(jù)質(zhì)量判定的準確性反饋,是目前有待解決的技術問題。
發(fā)明內(nèi)容
本發(fā)明提供一種ETL數(shù)據(jù)質(zhì)量判定與反饋方法,用以解決現(xiàn)有技術中由于數(shù)據(jù)源復雜等問題導致在數(shù)據(jù)處理的理解或錯誤原因的分析上存在差異,影響了對ETL系統(tǒng)質(zhì)量的判斷的準確性的技術問題,該方法包括:
調(diào)度對待處理數(shù)據(jù)進行ETL處理的ETL任務,并解析獲取所述ETL任務所指示出的輸出數(shù)據(jù)表的標識信息;
通過查詢用于描述該標識信息所對應的輸出數(shù)據(jù)表的元數(shù)據(jù)信息獲取ETL數(shù)據(jù)處理過程的判定指標,所述判定指標指示按照指定方式對所述ETL數(shù)據(jù)處理過程的輸出數(shù)據(jù)中的指定字段進行統(tǒng)計或運算;
執(zhí)行所述ETL任務,得到目標數(shù)據(jù)并存儲至數(shù)據(jù)倉庫,其中,所述目標數(shù)據(jù)包括采用所述ETL任務對所述待處理數(shù)據(jù)進行ETL處理后得到的第一數(shù)據(jù)和用于唯一標識所述第一數(shù)據(jù)的標記信息;
根據(jù)所述判定指標的結(jié)果值和預設期望值的比較結(jié)果確定對所述ETL數(shù)據(jù)處理過程的質(zhì)量判定結(jié)果;
在根據(jù)ETL處理日志確定所述ETL任務失敗時,根據(jù)所述ETL處理日志和所述標記信息從所述數(shù)據(jù)倉庫中確定出所述臟數(shù)據(jù),并對所述臟數(shù)據(jù)進行清理。
優(yōu)選的,在調(diào)度對待處理數(shù)據(jù)進行ETL處理的ETL任務之前,所述方法還包括:
同步源數(shù)據(jù)至所述數(shù)據(jù)倉庫并設置預警閾值,當所述源數(shù)據(jù)在所述預警閾值內(nèi)時,對所述源數(shù)據(jù)進行標準化處理得到標準化源數(shù)據(jù);
對所述標準化源數(shù)據(jù)進行元數(shù)據(jù)管理,通過元數(shù)據(jù)將海量報表中的目標表、目標字段進行業(yè)務描述得到第二數(shù)據(jù);
根據(jù)預設業(yè)務規(guī)則和預設數(shù)據(jù)標準從所述第二數(shù)據(jù)中提取所述待處理數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河鋼數(shù)字技術股份有限公司,未經(jīng)河鋼數(shù)字技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010905210.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)抽取、轉(zhuǎn)換和加載的執(zhí)行方法和裝置
- 為ETL任務分配節(jié)點的方法和調(diào)度系統(tǒng)
- 一種用于調(diào)度ETL任務的方法與設備
- 一種基于元數(shù)據(jù)的ETL實現(xiàn)方法及系統(tǒng)
- 一種監(jiān)控任務運行的方法和設備
- 一種分布式數(shù)據(jù)ETL處理方法及裝置
- 一種基于多服務節(jié)點的數(shù)據(jù)處理系統(tǒng)及其方法
- ETL任務調(diào)度方法、裝置、計算機設備及存儲介質(zhì)
- 一種基于元數(shù)據(jù)的ETL任務批量生成方法
- ETL文件拆分方法及裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





