[發明專利]一種基于python腳本的分布式大數據清洗方法有效
| 申請號: | 202010938368.8 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN112115127B | 公開(公告)日: | 2023-03-03 |
| 發明(設計)人: | 魯紅軍 | 申請(專利權)人: | 陜西云基華海信息技術有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/27;G06F9/48 |
| 代理公司: | 北京市浩東律師事務所 11499 | 代理人: | 李雁 |
| 地址: | 710000 陜西省西安市高*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 python 腳本 分布式 數據 清洗 方法 | ||
1.一種基于python腳本的分布式大數據清洗方法,其特征在于,該方法包括如下步驟:
步驟一:首先對待清洗的數據的加載,再對加載后的待清洗的數據進行分片操作;
步驟二:對待清洗的數據進行分布式調度以及執行操作;
步驟三:對待清洗的數據進行請求以及對清洗結果進行回填;
其中,步驟一具體分為如下步驟:
S1:數據加載,首先從HBase列存數據庫加載所需要進行清洗的數據;
S2:制定清洗策略,設置數據清洗策略;
S3:根據S2制定的清洗策略,對所有待清洗的數據進行分片,并記錄各個分片的信息;
步驟二具體分為如下步驟:
A1:調度策略,根據步驟一S2中制定的清洗策略,實現清洗任務的調度策略;
A2:加載腳本,根據步驟一S2中制定的清洗策略,加載Python清洗腳本;
A3:根據A1中的調度策略,生成調度任務,將調度任務綁定Python腳本引擎,并綁定清洗腳本;
步驟三具體分為如下步驟:
Y1:執行任務,根據步驟二A1中的調度策略,執行待清洗數據分布式調度任務;
Y2:數據清洗,步驟A1中每個調度任務工作節點的執行器,通過綁定的Python腳本引擎執行數據清洗腳本;
Y3:結果回填,將所清洗的數據的清洗結果,回填到HBase列存數據庫的數據清洗目標表;
S2中數據清洗策略包括清洗規則、清洗方法和對數據計算劃分,將待清洗數據劃分為N個任務,數據分片數量設為N,數據記錄值設為C,每個數據切面為數據記錄C除以數據分片K,K=C/N;
在步驟A1中安裝數據分片K,生成對應的K個計算任務,分布式計算引擎會分派計算任務到集群工作節點SparkWorker,將節點數設為L,則每個節點分配T=K/L個調度任務;
步驟A3綁定清洗腳本后生成根據每個調度任務生成對應的算子,算子加載到加載到執行器進程ROSNode;
HBase列存數據庫包括內置分區單元,其中,內置分區單元將HBase列存數據庫分為區間C和區間D,步驟Y3所清洗的數據的清洗結果會回填到區間C中,未清洗的數據均儲存在區間D中;
步驟A1中調度策略制定后,由Spark驅動器進行調度策略的驅動,由集群集群管理器YARN對所有的集群工作節點進行統一管理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陜西云基華海信息技術有限公司,未經陜西云基華海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010938368.8/1.html,轉載請聲明來源鉆瓜專利網。





