[發明專利]一種分析、定位數據質量問題的方法及系統在審
| 申請號: | 202011286527.7 | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112506897A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 繆新萍;張克賢;汪浩;黃莉雅;馬艷潔;王鵬宇;歐陽靜;孔慶波;田鉞;劉可;陳卿;葛松;方繼宇 | 申請(專利權)人: | 貴州電網有限責任公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 成都玖和知識產權代理事務所(普通合伙) 51238 | 代理人: | 胡琳梅 |
| 地址: | 550000 貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分析 定位 數據 質量問題 方法 系統 | ||
本發明公開了一種分析、定位數據質量問題的方法,通過字段分析規則對數據庫中的數據進行第一次質量分析、定位;然后根據數據的初次分析結果以及使用場景進行第二次質量分析:其中當數據庫中大范圍數據應用于紙質或電子使用時,通過二次校驗分析是否存在填寫遺漏、填寫錯誤、錄入遺漏、錄入錯誤等,可以篩查出初次分析是字段分析規則沒能檢測出來的問題;當數據庫中某一目標文件需要調用時,通過稽核規則,單獨對目標文件進行稽核,因此本發明具有多場景適用、分析定位數據質量問題全面、準確的優勢。
技術領域
本發明涉及數據質量技術領域,具體而言,為一種分析、定位數據質量問題的方法及系統。
背景技術
我國目前各個行業的信息化建設已經如火如荼的開展了很多年,積累了豐富的數據。這些數據五花八門,存儲結構也是千變萬化。但是這些數據的數據質量卻普遍不高,導致基于這些數據的分析結果不準確,數據無法很好的被利用。由于這些數據存儲在數據庫里面,信息部門的管理人員很難真正掌握這些數據的數據質量。
目前,針對關系型數據庫所存儲數據內容的數據質量分析方法不多,尤其是對于特定的應存儲國家標準數據的數據內容的分析更是處于空白狀態。該類存儲代碼的數據,比如性別,國家有專門的標準,必須取值范圍在一定的數字之內,但是實際的情況卻是大多數的數據完全與國家標準代碼不符,導致數據不標準,不統一,無法被很好的使用。
發明內容
針對現有技術中的缺陷,本發明第一方面的目的是提供一種分析、定位數據質量問題的方法及系統,用于數據質量的分析、定位,解決數據不標準,無法被很好的使用的問題。
為實現上述第一方面的目的,本發明的技術方案如下:
一種分析、定位數據質量問題的方法,包括:
獲取數據庫對應的表及字段的結構;
根據預設的字段分析規則,對數據庫進行分析;
對數據庫數據進行二次校驗或稽核處理。
優選的,所述獲取數據庫對應的表及字段的結構中,數據庫中的數據包括若干個待分析的表,所述表結構下包括一個或多個待分析字段;選擇任意一個表的任意一個字段進行配置。
則所述根據預設的字段分析規則,對數據庫進行分析包括:
標準代碼檢測:讀取所述待分析字段對應的國家標準代碼,將所述待分析字段與對應的國家標準代碼進行匹配,判斷匹配結果;
字段缺失檢測:將所述待分析字段逐個對比檢測,檢測范圍包括數字、文字和/或圖案,判斷檢測結果;
字段長度檢測:預先設置標準字段的長度,將所述待分析字段與所述標準字段的長度進行比對,判斷比對結果。
同類字段檢測:將所述待分析字段逐個對比檢測,所述檢測的范圍包括數字、文字和/或圖案;判斷對比結果。
優選的,所述對數據庫數據進行二次校驗,包括
匯總數據在紙質與電子狀態使用時的質量問題,預設數據庫中數據的錯誤類型;
根據錯誤類型進行一致性檢驗,得到數據錯誤分析結果。
優選的,所述錯誤類型包括填寫遺漏、填寫錯誤、錄入遺漏以及錄入錯誤。
優選的,所述根據錯誤類型進行一致性檢驗,得到數據錯誤分析結果,包括:
從數據庫中通過數據編號的唯一標識找到相應數據的錄入數據、紙質識別數據和電子提取數據并初始化成哈希表;
遍歷數據全集,從中取出某一數據字段,根據數據字段名稱從三個數據集合中查找數據,根據查找到的錄入數據、紙質識別數據和電子提取數據是否存在確定當前狀態;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州電網有限責任公司,未經貴州電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011286527.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





