[發明專利]一種自動化的數據清洗方法在審
| 申請號: | 202110742624.0 | 申請日: | 2021-07-01 |
| 公開(公告)號: | CN113392099A | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 胡德斌 | 申請(專利權)人: | 蘇州維眾數據技術有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06F16/245;G06F16/28 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 215000 江蘇省蘇州市工業*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動化 數據 清洗 方法 | ||
1.一種自動化的數據清洗方法,針對關系型數據庫,其特征在于,包括如下步驟:
S1、制定規則集,依據行業常識或行業數據標準人為制定規則,并將所制定的規則匯總形成規則集,并定義所述規則集內的所有規則為強規則;
S2、設定規則集的判定函數,為所述規則集內的規則設定判定函數,利用所述判定函數判斷所述關系型數據庫中的數據表是否符合規則,并反饋對應結果;
S3、計算數據表的整體置信度,計算所述數據表中所有字段數據符合所述規則集中全部規則的概率,并使用計算結果表示所述數據表的置信度;
S4、計算數據表中各字段的置信度,計算所述數據表中各個字段符合所述規則集中相應規則的概率,并使用計算結果表示所述數據表中各字段的置信度;
S5、明確數據表中各字段間的依賴關系,構建所有的所述數據表中字段的關系表,得到節點關系表;
S6、構建節點間的關系矩陣,讀取待清洗數據表內的所有字段,在已有的所述數據表中查找對應字段,分別逐一判定節點之間的依賴關系;
S7、計算節點之間的影響因子,通過計算得到節點之間的影響力模型;
S8、數據賦值,依據S7中的計算結果,使用置信度高的數據替換置信度低的數據、對所述數據表中的各字段進行重新賦值;
S9、完成數據清洗,重復S7~S8,直至待清洗數據表內所有字段均完成相應操作、數據清洗隨即完畢。
2.根據權利要求1所述的一種自動化的數據清洗方法,其特征在于:在所述關系型數據庫中包含多張數據表,每張所述數據表由行、列組成,其中行表示該張所述數據表中有多少條數據、列由多個字段組成,每張所述數據表均為由多個字段組成的數據集合,每個字段對應一個節點,所述節點為對應字段極其描述數據所構成的多元數據組。
3.根據權利要求2所述的一種自動化的數據清洗方法,其特征在于:在S1中,依據行業常識或行業數據標準,人為制定條規則,每條規則分別記為隨后將所制定的規則匯總形成規則集,并定義該所述規則集內的所有規則為強規則所述數據表中每個字段至少存在一條強規則。
4.根據權利要求3所述的一種自動化的數據清洗方法,其特征在于:在S2中,為所述規則集內的規則設定判定函數,
,
對于給定輸入數據,當符合規則時,函數反饋結果為1,否則反饋結果為0。
5.根據權利要求4所述的一種自動化的數據清洗方法,其特征在于:在S3中,對數據表,定義其整體置信度計算公式,
,
其中,表示數據表中總的數據條數,表示規則集中總的規則條數,表示數據表中各個字段的數據,表示數據表中所有數據符合規則集的條數。
6.根據權利要求5所述的一種自動化的數據清洗方法,其特征在于:在S4中,將數據表中的字段記為,定義數據表中各字段的置信度計算公式,
,
其中,表示規則集中與字段相關的規則的條數。
7.根據權利要求6所述的一種自動化的數據清洗方法,其特征在于:在S5中,所述節點關系表中包含三種節點關系,即父子節點關系、共字段節點關系以及完全獨立節點關系。
8.根據權利要求7所述的一種自動化的數據清洗方法,其特征在于:在S6中,讀取待清洗數據表內的所有字段,在已有的所述數據表中查找對應字段,分別逐一判定節點之間的依賴關系,構成一個關系圖,
,,
其中表示各節點,表示節點之間的依賴關系。
9.根據權利要求8所述的一種自動化的數據清洗方法,其特征在于:在S7中,具體包括如下步驟,
S71、依據S3、S4,計算所有節點的初始概率,即節點代表的字段數據的置信度;
S72、依據S5、S6,構建節點之間的關系矩陣;
S73、根據關系矩陣更新各個節點之間的影響力因子,表示節點對的影響因子,是的影響力節點。
10.根據權利要求9所述的一種自動化的數據清洗方法,其特征在于:在S8中,具體包括如下步驟,
S81、找出節點影響力因子最大的一組值對應的節點;
S82、比較與,如果,則用表示的數據表字段值代替節點表示的數據表字段值,如果,則節點表示的字段數據值不變。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州維眾數據技術有限公司,未經蘇州維眾數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110742624.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





