[發明專利]一種基于python腳本的分布式大數據清洗方法有效

申請號：	202010938368.8	申請日：	2020-09-09
公開（公告）號：	CN112115127B	公開（公告）日：	2023-03-03
發明（設計）人：	魯紅軍	申請（專利權）人：	陜西云基華海信息技術有限公司
主分類號：	G06F16/215	分類號：	G06F16/215;G06F16/27;G06F9/48
代理公司：	北京市浩東律師事務所 11499	代理人：	李雁
地址：	710000 陜西省西安市高***	國省代碼：	陜西;61
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 python 腳本分布式數據清洗方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于python腳本的分布式大數據清洗方法，該方法包括如下步驟，首先對待清洗的數據的加載，再對加載后的待清洗的數據進行分片操作，對待清洗的數據進行分布式調度以及執行操作，對待清洗的數據進行請求以及對清洗結果進行回填，其中，步驟一具體分為如下步驟，數據加載，首先從HBase列存數據庫加載所需要進行清洗的數據，制定清洗策略，設置數據清洗策略。本發明基于大數據技術，基于HBase列存儲數據庫做數據清洗，解決了海量數據清洗問題，采用python引擎及腳本做數據清洗，解決了傳統SQL清洗規則少的問題和jar包清洗靜態編碼的問題，基于Spark的分布式計算引擎，并行執行腳本，解決了大數據清洗算力不足的問題。

技術領域

本發明涉及數據清洗領域，具體涉及一種基于python腳本的分布式大數據清洗方法。

背景技術

數據清洗是指發現并糾正數據文件中可識別的錯誤的最后一道程序，包括檢查數據一致性，處理無效值和缺失值等，與問卷審核不同，錄入后的數據清理一般是由計算機而不是人工完成。

現有的分布式大數據清洗方法，清洗能力較為有限，不能夠針對大量的數據進行清洗，且現有的清洗方法基本都是采用SQL清洗規則，清洗規則較少，導致清洗效果較為一般，此外傳統的清洗數據的方法清洗算力不足，因此，如何將打造一種基于python腳本的分布式大數據清洗方法成為一個亟待解決的問題。

發明內容

本發明所要解決的技術問題在于：現有的分布式大數據清洗方法，清洗能力較為有限，不能夠針對大量的數據進行清洗，且現有的清洗方法基本都是采用SQL清洗規則，清洗規則較少，導致清洗效果較為一般，此外傳統的清洗數據的方法清洗算力不足。

本發明是通過以下技術方案解決上述技術問題的，一種基于python腳本的分布式大數據清洗方法，該方法包括如下步驟：

步驟一：首先對待清洗的數據的加載，再對加載后的待清洗的數據進行分片操作；

步驟二：對待清洗的數據進行分布式調度以及執行操作；

步驟三：對待清洗的數據進行請求以及對清洗結果進行回填；

其中，步驟一具體分為如下步驟：