[發明專利]一種數據清洗方法及裝置在審
| 申請號: | 201810751415.0 | 申請日: | 2018-07-10 |
| 公開(公告)號: | CN109033274A | 公開(公告)日: | 2018-12-18 |
| 發明(設計)人: | 陳世強;王鵬晴;李曉東;鐘華劍;徐雅光;劉利剛 | 申請(專利權)人: | 中國銀行股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 袁方 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 清洗 數據清洗 插件 引擎 預存 數據處理領域 調用目標 結果數據 數據選擇 動態的 數據源 | ||
1.一種數據清洗方法,其特征在于,包括:
在數據源中為每個數據清洗引擎確定待清洗數據;
根據所述待清洗數據的類型在預存的至少一個清洗規則中為所述待清洗數據選擇目標清洗規則;根據所述目標清洗規則在預存的至少一個清洗插件中調用目標清洗插件;其中每個所述清洗規則對應至少一個清洗插件;
通過所述數據清洗引擎運行所述目標清洗插件按照所述目標清洗規則對所述待清洗數據進行清洗,獲取清洗結果數據。
2.根據權利要求1所述的數據清洗方法,其特征在于,根據所述待清洗數據的類型在預存的至少一個清洗規則中為所述待清洗數據選擇目標清洗規則之前,包括:為所述待清洗數據配置所述至少一個清洗規則,并為每個所述清洗規則配置至少一個清洗插件,將所述至少一個清洗規則以及所述至少一個清洗插件預先保存至配置數據庫中。
3.根據權利要求1所述的數據清洗方法,其特征在于,所述方法還包括:存儲所述清洗結果數據。
4.根據權利要求1所述的數據清洗方法,其特征在于,所述數據源采用分布式文件方式存儲所述待清洗數據。
5.根據權利要求1所述的數據清洗方法,其特征在于,所述數據源采用以下一種或多種方式存儲所述待清洗數據:TXT文件、Hive表、HDFS文件、RDBMS表。
6.一種數據清洗裝置,其特征在于,包括:
數據輸入模塊,用于在數據源中為每個數據清洗引擎確定待清洗數據;
數據清洗模塊,根據所述數據輸入模塊確定的待清洗數據的類型在預存的至少一個清洗規則中為所述待清洗數據選擇目標清洗規則;根據所述目標清洗規則在預存的至少一個清洗插件中調用目標清洗插件;其中每個所述清洗規則對應至少一個清洗插件;
數據清洗模塊,還用于通過所述數據清洗引擎運行所述目標清洗插件按照所述目標清洗規則對所述待清洗數據進行清洗,獲取清洗結果數據。
7.根據權利要求6所述的數據清洗裝置,其特征在于,還包括:配置模塊,用于為所述待清洗數據配置所述至少一個清洗規則,并為每個所述清洗規則配置至少一個清洗插件,將所述至少一個清洗規則以及所述至少一個清洗插件預先保存至配置數據庫中。
8.根據權利要求6所述的數據清洗裝置,其特征在于,還包括:數據輸出模塊,用于存儲所述數據清洗模塊獲取的所述清洗結果數據。
9.根據權利要求6所述的數據清洗裝置,其特征在于,所述數據源采用分布式文件方式存儲所述待清洗數據。
10.根據權利要求6所述的數據清洗裝置,其特征在于,所述數據源采用以下一種或多種方式存儲所述待清洗數據:TXT文件、Hive表、HDFS文件、RDBMS表。
11.一種存儲一個或多個程序的計算機可讀存儲介質,其特征在于,所述一個或多個程序包括指令,所述指令當被計算機執行時使所述計算機執行如權利要求1至5任一項所述的數據清洗方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀行股份有限公司,未經中國銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810751415.0/1.html,轉載請聲明來源鉆瓜專利網。





