[發明專利]一種數據清洗方法及裝置在審
| 申請號: | 201810751415.0 | 申請日: | 2018-07-10 |
| 公開(公告)號: | CN109033274A | 公開(公告)日: | 2018-12-18 |
| 發明(設計)人: | 陳世強;王鵬晴;李曉東;鐘華劍;徐雅光;劉利剛 | 申請(專利權)人: | 中國銀行股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 袁方 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 清洗 數據清洗 插件 引擎 預存 數據處理領域 調用目標 結果數據 數據選擇 動態的 數據源 | ||
本發明的實施例公開一種數據清洗方法及裝置,涉及數據處理領域,能夠在數據清洗引擎上實現動態的數據清洗。該方法,包括:在數據源中為每個數據清洗引擎確定待清洗數據;根據所述待清洗數據的類型在預存的至少一個清洗規則中為所述待清洗數據選擇目標清洗規則;根據所述目標清洗規則在預存的至少一個清洗插件中調用目標清洗插件;其中每個所述清洗規則對應至少一個清洗插件;通過所述數據清洗引擎運行所述目標清洗插件按照所述目標清洗規則對所述待清洗數據進行清洗,獲取清洗結果數據。
技術領域
本發明的實施例涉及數據處理領域,尤其涉及一種數據清洗方法及裝置。
背景技術
數據清洗是指發現并糾正數據文件中可識別的錯誤的一道程序,包括檢查數據一致性,處理無效值和缺失值等。是對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。
使用pro*c開發清洗程序并運行于AIX(Advanced Interactive eXecutive,高級執行交互體)操作系統上時,需要人為將需要清洗的數據按照數據清洗引擎(例如執行數據清洗的計算機或處理器)的多少,分成多份,每臺數據清洗引擎使用清洗程序運行分配給數據清洗引擎的待清洗數據。并且,數據類系統在進行數據清洗時通常以單個數據清洗引擎對待清洗數據進行清洗,或者采用多個數據清洗引擎對待清洗數據進行清洗時,單獨運行每個數據清洗引擎對待清洗數據進行清洗,在對數據清洗的過程中,每個數據清洗引擎運行固定的清洗程序,不能動態更換,因而由于清洗程序的版本部署以及更新速度均會影響到數據清洗的質量及速度,例如低版本的清洗程序效率低下或者代碼邏輯錯誤均會引起數據清洗過程緩慢或報錯。此外,由于每個數據清洗引擎獨立運行,當多臺清洗引擎同時運行時,并不能協調多個清洗引擎之間的清洗任務。
發明內容
本發明的實施例提供一種數據清洗方法及裝置,能夠在數據清洗引擎上實現動態的數據清洗。
第一方面,提供一種數據清洗方法,包括:在數據源中為每個數據清洗引擎確定待清洗數據;根據所述待清洗數據的類型在預存的至少一個清洗規則中為所述待清洗數據選擇目標清洗規則;根據所述目標清洗規則在預存的至少一個清洗插件中調用目標清洗插件;其中每個所述清洗規則對應至少一個清洗插件;通過所述數據清洗引擎運行所述目標清洗插件按照所述目標清洗規則對所述待清洗數據進行清洗,獲取清洗結果數據。
第二方面,提供一種數據清洗裝置,包括:
數據輸入模塊,用于在數據源中為每個數據清洗引擎確定待清洗數據;
數據清洗模塊,根據所述數據輸入模塊確定的待清洗數據的類型在預存的至少一個清洗規則中為所述待清洗數據選擇目標清洗規則;根據所述目標清洗規則在預存的至少一個清洗插件中調用目標清洗插件;其中每個所述清洗規則對應至少一個清洗插件;
數據清洗模塊,還用于通過所述數據清洗引擎運行所述目標清洗插件按照所述目標清洗規則對所述待清洗數據進行清洗,獲取清洗結果數據。
在上述方案中,數據清洗裝置能夠在數據源中為每個數據清洗引擎確定待清洗數據;并根據根據待清洗數據的類型在預存的至少一個清洗規則中為待清洗數據選擇目標清洗規則;根據目標清洗規則在預存的至少一個清洗插件中調用目標清洗插件;其中每個清洗規則對應至少一個清洗插件;通過數據清洗引擎運行目標清洗插件按照目標清洗規則對待清洗數據進行清洗,獲取清洗結果數據。由于能夠根據清洗規則為待清洗數據選擇目標清洗規則,并且選擇數據清洗引擎運行的清洗插件對待清洗數據進行數據清洗,實現了在數據清洗引擎上對待清洗數據動態的數據清洗,避免了清洗引擎運行固定的清洗程序,不能動態更換,對數據清洗的質量及速度的影響。同時當數據源采用分布式文件方式存儲待清洗數據時,可以均衡分配給每個數據清洗引擎的數據清洗任務,實現了多個數據清洗引擎之間的協調。此外,由于采用清洗插件的方式對待清洗數據進行清洗,可以實現清洗規則以及清洗插件的共享,可以避免重復開發。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀行股份有限公司,未經中國銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810751415.0/2.html,轉載請聲明來源鉆瓜專利網。





