[發明專利]一種基于python腳本的分布式大數據清洗方法有效
| 申請號: | 202010938368.8 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN112115127B | 公開(公告)日: | 2023-03-03 |
| 發明(設計)人: | 魯紅軍 | 申請(專利權)人: | 陜西云基華海信息技術有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/27;G06F9/48 |
| 代理公司: | 北京市浩東律師事務所 11499 | 代理人: | 李雁 |
| 地址: | 710000 陜西省西安市高*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 python 腳本 分布式 數據 清洗 方法 | ||
本發明公開了一種基于python腳本的分布式大數據清洗方法,該方法包括如下步驟,首先對待清洗的數據的加載,再對加載后的待清洗的數據進行分片操作,對待清洗的數據進行分布式調度以及執行操作,對待清洗的數據進行請求以及對清洗結果進行回填,其中,步驟一具體分為如下步驟,數據加載,首先從HBase列存數據庫加載所需要進行清洗的數據,制定清洗策略,設置數據清洗策略。本發明基于大數據技術,基于HBase列存儲數據庫做數據清洗,解決了海量數據清洗問題,采用python引擎及腳本做數據清洗,解決了傳統SQL清洗規則少的問題和jar包清洗靜態編碼的問題,基于Spark的分布式計算引擎,并行執行腳本,解決了大數據清洗算力不足的問題。
技術領域
本發明涉及數據清洗領域,具體涉及一種基于python腳本的分布式大數據清洗方法。
背景技術
數據清洗是指發現并糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無效值和缺失值等,與問卷審核不同,錄入后的數據清理一般是由計算機而不是人工完成。
現有的分布式大數據清洗方法,清洗能力較為有限,不能夠針對大量的數據進行清洗,且現有的清洗方法基本都是采用SQL清洗規則,清洗規則較少,導致清洗效果較為一般,此外傳統的清洗數據的方法清洗算力不足,因此,如何將打造一種基于python腳本的分布式大數據清洗方法成為一個亟待解決的問題。
發明內容
本發明所要解決的技術問題在于:現有的分布式大數據清洗方法,清洗能力較為有限,不能夠針對大量的數據進行清洗,且現有的清洗方法基本都是采用SQL清洗規則,清洗規則較少,導致清洗效果較為一般,此外傳統的清洗數據的方法清洗算力不足。
本發明是通過以下技術方案解決上述技術問題的,一種基于python腳本的分布式大數據清洗方法,該方法包括如下步驟:
步驟一:首先對待清洗的數據的加載,再對加載后的待清洗的數據進行分片操作;
步驟二:對待清洗的數據進行分布式調度以及執行操作;
步驟三:對待清洗的數據進行請求以及對清洗結果進行回填;
其中,步驟一具體分為如下步驟:
S1:數據加載,首先從HBase列存數據庫加載所需要進行清洗的數據;
S2:制定清洗策略,設置數據清洗策略;
S3:根據S2制定的清洗策略,對所有待清洗的數據進行分片,并記錄各個分片的信息;
步驟二具體分為如下步驟:
A1:調度策略,根據步驟一S2中制定的清洗策略,實現清洗任務的調度策略;
A2:加載腳本,根據步驟一S2中制定的清洗策略,加載Python清洗腳本;
A3:根據A1中的調度策略,生成調度任務,將調度任務綁定Python腳本引擎,并綁定清洗腳本;
步驟三具體分為如下步驟:
Y1:執行任務,根據步驟二A1中的調度策略,執行待清洗數據分布式調度任務;
Y2:數據清洗,步驟A1中每個調度任務工作節點的執行器,通過綁定的Python腳本引擎執行數據清洗腳本;
Y3:結果回填,將所清洗的數據的清洗結果,回填到HBase列存數據庫的數據清洗目標表。
優選的,S2中數據清洗策略包括清洗規則、清洗方法和對數據計算劃分,將待清洗數據劃分為N個任務,數據分片數量設為N,數據記錄值設為C,每個數據切面為數據記錄C除以數據分片K,K=C/N。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陜西云基華海信息技術有限公司,未經陜西云基華海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010938368.8/2.html,轉載請聲明來源鉆瓜專利網。





