[發明專利]數據清理方法在審
| 申請號: | 201910308949.0 | 申請日: | 2019-04-17 |
| 公開(公告)號: | CN110162519A | 公開(公告)日: | 2019-08-23 |
| 發明(設計)人: | 張禮成 | 申請(專利權)人: | 蘇寧易購集團股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2455 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 黃玉東 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 清洗 數據流 判定規則 刪除 數據安全性 第一數據 過濾處理 獲取數據 數據建立 數據清理 數據清洗 數據輸出 數據源 預設 字段 填充 檢測 申請 | ||
本申請涉及一種數據清洗方法。所述方法包括:從第一數據源中獲取數據,利用獲取的數據建立一個獨立的數據流;對所述數據流中的數據進行過濾處理,得到待清洗數據;對所述待清洗數據中包含缺失值的字段進行刪除或填充,得到初步清洗數據;檢測所述初步清洗數據是否符合預設的判定規則,刪除不符合判定規則的數據,得到最終清洗數據;將所述最終清洗數據輸出到第二數據源。采用本方法能夠提高數據安全性。
技術領域
本申請涉及大數據處理技術領域,特別是涉及一種數據清理方法。
背景技術
隨著網絡時代的到來,大量信息數據持續不斷地涌入網絡,數據量以每年50%的速度在增長。在龐大的數據來源支持下,企業決策越來越以數據分析為基礎,而非傳統的僅僅依靠經驗和直覺。數據清洗是整個數據分析過程中不可缺少的一個環節,其結果質量直接關系到模型效果和最終的數據分析結論。數據清洗是指對數據進行重新審核和校驗的過程,目的在于刪除重復數據,糾正存在的錯誤,并保證數據一致性。在實際操作中,數據清洗通常會占據數據分析過程的50%—80%的時間。
數據清洗包括離線數據清洗和實時數據清洗兩類,離線數據清洗可以通過犧牲性能的方式,借助復雜的處理對數據進行更細粒度的清洗,包括缺失值處理、異常值處理、重復值處理、空值填充、統一單位、是否標準化處理、是否刪除無必要的變量以及是否排序等;相比于離線數據清洗,實時數據清洗因為實時要求,更傾向于數據的缺值填充、過濾以及數據合法性檢查,但是現有的數據清理過程通常與數據分析過程是一體的,兩者耦合性大,數據清理過程受到數據分析其他代碼作用的影響大,容易發生數據丟失,數據的安全性較差。
發明內容
基于此,有必要針對上述技術問題,提供一種數據清洗方法,能夠提高數據安全性。
一種數據清洗方法,方法包括:
從第一數據源中獲取數據,利用獲取的數據建立一個獨立的數據流;
對數據流中的數據進行過濾處理,得到待清洗數據;
對待清洗數據中包含缺失值的字段進行刪除或填充,得到初步清洗數據;
檢測初步清洗數據是否符合預設的判定規則,刪除不符合判定規則的數據,得到最終清洗數據;
將最終清洗數據輸出到第二數據源。
在其中一個實施例中,所述對待清洗數據中包含缺失值的字段進行刪除或填充包括:
根據字段的缺失值條數占總條數的比例,計算得到字段的缺失率;
根據需要分析的指標,確定字段的屬性重要程度;
根據字段的缺失率和屬性重要程度,對包含缺失值的字段進行刪除或填充。
在其中一個實施例中,所述根據字段的缺失率和屬性重要程度,對包含缺失值的字段進行刪除或填充包括:
當字段的缺失率低于預設的缺失率閾值且屬性重要程度低于預設的重要評級閾值時,對字段進行填充;
當字段的缺失率不低于預設的缺失率閾值且屬性重要程度低于預設的重要評級閾值時,刪除字段;
當字段的缺失率不低于預設的缺失率閾值且屬性重要程度高于預設的重要評級閾值時,對字段的缺失值進行補全。
在其中一個實施例中,該方法還包括:
探查第一數據源中數據的描述數據屬性的元數據,根據所述元數據分析得到數據存在的質量問題,根據質量問題設定過濾規則;
所述對數據流中的數據進行過濾處理,得到待清洗數據,包括:根據所述過濾規則對數據流中的數據進行過濾處理,得到待清洗數據。
在其中一個實施例中,所述對數據流中的數據進行過濾處理包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇寧易購集團股份有限公司,未經蘇寧易購集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910308949.0/2.html,轉載請聲明來源鉆瓜專利網。





