[發明專利]數據質量校驗方法及裝置在審
| 申請號: | 201810556408.5 | 申請日: | 2018-05-31 |
| 公開(公告)號: | CN108762933A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 王雙;王純斌;劉俊良;龐攀 | 申請(專利權)人: | 成都四方偉業軟件股份有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F17/30 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 徐麗 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 質量校驗 校驗 數據源 流程配置 分布式計算服務 節點配置 可執行 元數據 解析 計算資源 節點動態 數據校驗 校驗結果 校驗運算 預定義 編譯 組裝 | ||
本發明提供了一種數據質量校驗方法及裝置,涉及數據校驗領域。數據質量校驗方法包括:對待校驗的數據源進行解析,得到數據源元數據;對預定義的校驗流程配置進行解析,得到校驗流程配置的節點的節點配置;依據節點配置將校驗流程配置的節點動態組裝并編譯成可執行的分布式計算服務;根據可執行的分布式計算服務和數據源元數據對數據源進行校驗運算,得到校驗結果。本發明提供的數據質量校驗方法及裝置能夠充分利用計算資源提升對數據質量校驗的計算速度,滿足對于數據持續增長的數據質量校驗需求。
技術領域
本發明涉及數據校驗領域,具體而言,涉及一種數據質量校驗方法及裝置。
背景技術
隨著現代信息網絡建設的飛速發展,軟件辦公,移動互聯網早已融入各行各業。伴隨著軟件產業的進步,各行各業的業務在快速建設的同時,經過長年累月的積累,必然產生大量的業務數據。在業務數據產生的同時,大量的錯誤數據也隨之產生,數據的正確性往往影響業務方的業務建設。因此數據的質量問題面臨嚴峻挑戰。
傳統的數據質量自動化校驗方法采用單機,或者多臺相互獨立的計算資源方式進行數據校驗,在對海量數據的數據質量校驗時,在多個相互獨立的單機上完成質量校驗,無法充分利用計算資源。在數據持續增長時,不能簡單快速有效的擴展機器資源提升計算能力和對數據量增長的支撐,效率低下。
發明內容
有鑒于此,本發明實施例的目的在于提供一種數據質量校驗方法及裝置,以改善上述問題。
第一方面,本發明實施例提供了一種數據質量校驗方法,應用于集群服務器中的其中一個服務器,所述方法包括:
對待校驗的數據源進行解析,得到數據源元數據;
對預定義的校驗流程配置進行解析,得到所述校驗流程配置的節點的節點配置;
依據所述節點配置將所述校驗流程配置的節點動態組裝并編譯成可執行的分布式計算服務;
根據可執行的所述分布式計算服務和所述數據源元數據對所述數據源進行校驗運算,得到校驗結果。
可選地,所述節點配置包括每個校驗節點的節點類型、節點元數據以及對應的下一校驗節點,所述節點元數據用于描述校驗規則。
可選地,所述節點類型為空值校驗、精度校驗或格式校驗。
可選地,所述方法還包括:
讀取待校驗的所述數據源。
可選地,所述依據所述節點配置將所述校驗流程配置的節點動態組裝并編譯成可執行的分布式計算服務,包括:
根據所述節點配置將所述校驗流程配置的節點依序組裝成分布式計算服務;
將組裝成的所述分布式計算服務編譯成所述可執行的分布式計算服務。
可選地,所述根據可執行的所述分布式計算服務和所述數據源元數據對所述數據源進行校驗運算,包括:
將可執行的所述分布式計算服務提交給所述集群服務器的大數據計算平臺,以便所述大數據計算平臺自動分配資源并根據所述數據源元數據讀取所述數據源以進行校驗運算。
第二方面,本發明實施例提供了一種數據質量校驗裝置,應用于集群服務器中的其中一個服務器,所述數據質量校驗裝置包括:
第一解析模塊,用于對待校驗的數據源進行解析,得到數據源元數據;
第二解析模塊,用于對預定義的校驗流程配置進行解析,得到所述校驗流程配置的節點的節點配置;
編輯模塊,用于依據所述節點配置將所述校驗流程配置的節點動態組裝并編譯成可執行的分布式計算服務;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都四方偉業軟件股份有限公司,未經成都四方偉業軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810556408.5/2.html,轉載請聲明來源鉆瓜專利網。





