[發明專利]一種基于分布式平臺的數據清洗方法及裝置有效
| 申請號: | 201711474717.X | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108052665B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 陳建江 | 申請(專利權)人: | 深圳市中易科技有限責任公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/27 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 姜海榮 |
| 地址: | 518057 廣東省深圳市南山區高新區南區科技*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布式 平臺 數據 清洗 方法 裝置 | ||
本發明公開了一種基于分布式平臺的數據清洗方法及裝置,該方法應用于分布式高效實時處理的系統,用于大數據量級的數據清洗,通過使用分布式處理的方式來解決性能、量級等問題,達到快速處理和實時響應的訴求;通過不斷迭代優化滿足業務的訴求和清洗的目標,這個過程是交替進行數據探索和規則優化的過程,不斷的提高數據質量,解決了以往的集中式處理,無法適應大規模數據運算的問題,充分利用大數據方面的特性完成大數據清洗,并為海量數據分析提供了數據準備,達到滿足業務需求的最優,可提高數據清洗性能和處理效率。
技術領域
本發明涉及大數據處理領域,特別涉及一種基于分布式平臺的數據清洗方法及裝置。
背景技術
數據清洗(Data cleaning)–對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。分布式平臺的數據清洗開發,使用STORM、ZOOKEEPER、KAFKA和MONGODB等一系列分布式架構組成數據清洗系統,STORM可以分布式實時計算和處理,KAFKA是一個分布式消息系統,TB級以上數據也能保證正常時間的訪問性能、高吞吐率,支持消息分區,及分布式消費,同時也支持離線數據處理和實時數據處理,MONGODB是基于分布式文件存儲的開源數據庫系統,提供可擴展的高性能數據存儲
但是現有技術中數據清洗往往無法適應大規模數據運算,性能慢、處理效率低,且無法到達實時展示。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種基于分布式平臺的數據清洗方法及裝置。
第一方面,本發明提供一種基于分布式平臺的數據清洗方法,包括:(1)通過數據采集,獲取大量數據;
(2)將獲取的所述大量數據,根據預設規則解析,生成標準化的數據;
(3)將所述標準化數據按照所對應的業務規則生成唯一標識,根據所述唯一標識進行消重處理;
(4)將所述消重處理后的數據,進行文本清洗;
(5)將所述文本清洗后的數據,調用規則模型,進行分析;
(6)根據所述規則模型輸出的數據文本,調用機器學習,進行概率計算,獲得權重值;確定所述權重值是否在區間范圍內;
(7)確定當所述權重值不在區間范圍內時,將所述文本清洗后的數據存儲到數據庫。
在一個實施例中,所述步驟(1),包括:
(1.1)根據業務所需,確定采集數據源;
(1.2)根據數據源,確定采集范圍、采集規則、采集頻率和采集數據的量級,進行數據采集。
在一個實施例中,所述步驟(2),包括:
(2.1)根據適配正則表達式和/或維表配置對獲取的所述大量數據,進行數據處理;
(2.2)數據解析處理,生成格式化的JSON數據。
在一個實施例中,所述步驟(3),包括:
(3.1)將所述標準化的數據生成唯一標識,每個數據源提供唯一標識生成規則,通過HASH方式生成ID,通過ID消重;
(3.2)清洗大量重復數據。
在一個實施例中,所述步驟(4),包括:
(4.1)將消重后的數據進行備份;
(4.2)將消重后的數據,根據文本清洗規則,進行文本清洗;
(4.3)將文本清洗的數據存儲,并導出排查和優化所述文本清洗規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市中易科技有限責任公司,未經深圳市中易科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711474717.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數字倍頻器
- 下一篇:一種多功能節能清潔車
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





