[發明專利]一種檢測數據質量的方法以及檢測數據質量的裝置在審
| 申請號: | 201811083363.0 | 申請日: | 2018-09-17 |
| 公開(公告)號: | CN109491990A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 高東升;付銓;梅綱 | 申請(專利權)人: | 武漢達夢數據庫有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2455;G06F16/2458 |
| 代理公司: | 深圳市六加知識產權代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 430000 湖北省武漢市東湖新技術開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢測數據 待檢測數據 規則匹配 問題數據 質量檢測 數據類型 正常數據 種檢測 檢測 準確度 配置規則 入庫數據 實際需求 輸出數據 目的端 數據源 匹配 傳送 督導 篩選 關聯 輸出 | ||
本發明提供了一種檢測數據質量的方法以及檢測數據質量的裝置,該檢測數據質量的方法包括:獲取待檢測數據以及待檢測數據的數據類型和/或屬性;依據待檢測數據的數據類型和/或屬性,配置規則匹配組合,其中,規則匹配組合包括至少一個檢測規則;依據規則匹配組合對待檢測數據進行質量檢測,以篩選出正常數據以及問題數據;將正常數據以及問題數據傳送至目的端,并依據問題數據輸出質量檢測報告。本發明的檢測數據質量的方法,由于規則匹配組合與待檢測數據相關聯,不僅可以提高檢測效率,還可以提高檢測的準確度,提高入庫數據的質量。同時,可以依據實際需求輸出數據質量檢測報告,以督導數據源改善數據質量。
【技術領域】
本發明涉及數據檢測領域,特別是涉及一種檢測數據質量的方法以及檢測數據質量的裝置。
【背景技術】
一般在數據中心項目的建設中,數據來源千變萬化,使用ETL(Extract-Transform-Load,簡寫ETL)工具軟件進行數據抽取、清洗轉換時,發現某些重要數據要么缺失、要么不符合規范。例如,公安行業監測網吧上網記錄,可能出現身份證登記缺失或無效的身份證號碼、上網時間非法或下網時間非法等問題,類似大批量問題數據遷移到公安行業數據中心庫,必然導致數據可分析利用率不高。因此,抽取、清洗轉換后的數據在入庫之前,需要對數據進行相關的質量檢測,入庫正常數據,并提供問題數據及問題數據的分析結果,督促數據源改善數據質量。
但是數據中心的源數據存在差異,且數據具有多樣性,不同的數據所適用的監視規則或檢測規則也會相應的不同。目前,一般采用預設的多個不同的檢測規則統一對不同的源數據進行檢測,但是存在一些檢測規則與源數據類型無關的情況,例如,源數據為身份證號,某一個檢測規則是檢測時間是否非法,源數據與檢測時間是否非法的檢測規則并無關聯關系,在采用該檢測規則對源數據進行檢測時,相當于是無效的檢測,影響檢測效率。或者,預設的檢測規則覆蓋面不夠廣,無法對數據進行全面的檢測,不僅影響入庫數據的質量,同時,也會造成問題數據及問題數據的分析結果存在異常,無法正確督導數據源改善數據質量。
因此,目前對源數據進行檢測時,無法依據待檢測的源數據靈活應對變換監視規則或檢測規則,以向數據源輸出問題的數據分析跟蹤調查,從而督促改善數據質量,不僅影響檢測效率,還會影響入庫數據的質量,同時,也會造成問題數據及問題數據的分析結果存在異常,無法正確督導數據源改善數據質量。
鑒于此,克服該現有技術所存在的缺陷是本技術領域亟待解決的問題。
【發明內容】
針對現有技術的以上缺陷或改進需求,本發明提供了一種檢測數據質量的方法及檢測數據質量的裝置,其目的在于基于待檢測數據的類型和/或屬性,靈活配置包含至少一個檢測規則的規則匹配組合,利用規則匹配組合對待檢測數據進行質量檢測,并根據實際需求輸出數據質量檢測報告;由此解決目前對數據進行檢測時,無法依據待檢測數據靈活應對變換監視規則或檢測規則的問題。
本發明實施例采用如下技術方案:
第一方面,本發明提供一種檢測數據質量的方法,所述檢測數據質量的方法包括:
獲取待檢測數據以及所述待檢測數據的數據類型和/或屬性;
依據所述待檢測數據的數據類型和/或屬性,配置規則匹配組合,其中,所述規則匹配組合包括至少一個檢測規則;
依據所述規則匹配組合對所述待檢測數據進行質量檢測,以篩選出正常數據以及問題數據;
將所述正常數據以及所述問題數據傳送至目的端,并依據所述問題數據輸出質量檢測報告。
優選地,所述依據所述規則匹配組合對所述待檢測數據進行質量檢測,以篩選出正常數據以及問題數據包括:
解析所述待檢測數據,以獲取多個目標檢測字段;
依據所述規則匹配組合,依次判斷確定所述多個目標檢測字段是否滿足所述規則匹配組合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢達夢數據庫有限公司,未經武漢達夢數據庫有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811083363.0/2.html,轉載請聲明來源鉆瓜專利網。





