[發明專利]基于Spark框架的數據清洗方法和裝置在審
| 申請號: | 201810398800.1 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN108563789A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 姜光植;嚴雪楓;謝川;黃瀚林 | 申請(專利權)人: | 成都致云科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 蘇勝 |
| 地址: | 610000 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據清洗 待存儲數據 清洗 方法和裝置 屬性文件 數據屬性 預設 真實性 寫入 保存 | ||
1.一種基于Spark框架的數據清洗方法,其特征在于,所述方法包括:
獲取待清洗數據;
判斷所述待清洗數據中是否滿足預設需求,若不滿足預設需求,則對所述待清洗數據進行數據清洗,并將清洗完成的數據作為待存儲數據;
計算所述待存儲數據的數據屬性,將計算得到的數據屬性寫入屬性文件中;
對所述待存儲數據和屬性文件進行保存。
2.根據權利要求1所述的基于Spark框架的數據清洗方法,其特征在于,判斷所述待清洗數據中是否滿足預設需求的步驟包括:
判斷所述待清洗數據是否滿足數據完整性需求、數據一致性需求、數據合法性需求以及數據唯一性需求中的一種或多種需求。
3.根據權利要求1所述的基于Spark框架的數據清洗方法,其特征在于,計算所述待存儲數據的數據屬性的步驟,包括:
根據所述待存儲數據的數據格式調用與其格式匹配的配置文件;
根據所述配置文件中預設的數據屬性計算規則計算所述待存儲數據的數據屬性。
4.根據權利要求3所述的基于Spark框架的數據清洗方法,其特征在于,在執行計算所述待存儲數據的數據屬性的步驟之前,所述方法還包括:
確定預處理數據的數據格式;
根據各所述數據格式確定對應的數據屬性,并將包含數據屬性的文件作為配置文件與所述數據格式進行對應保存。
5.根據權利要求4所述的基于Spark框架的數據清洗方法,其特征在于,所述數據屬性包括用于表征數據字段含義的KEY以及用于表征字段閾值的Value。
6.根據權利要求3所述的基于Spark框架的數據清洗方法,其特征在于,獲取待清洗數據的步驟包括:
通過預設數據采集工具按照預設時間間隔從數據源中采集日志數據作為待清洗數據。
7.一種基于Spark框架的數據清洗裝置,其特征在于,所述裝置包括:
數據獲取模塊,用于獲取待清洗數據;
數據判斷模塊,用于判斷所述待清洗數據中是否滿足預設需求,若不滿足預設需求,則對所述待清洗數據進行數據清洗,并將清洗完成的數據作為待存儲數據;
屬性計算模塊,用于計算所述待存儲數據的數據屬性,將計算得到的數據屬性寫入屬性文件中;
數據保存模塊,用于對所述待存儲數據和屬性文件進行保存。
8.根據權利要求7所述的基于Spark框架的數據清洗裝置,其特征在于,所述數據判斷模塊還用于:
判斷所述待清洗數據是否滿足數據完整性需求、數據一致性需求、數據合法性需求以及數據唯一性需求中的一種或多種需求。
9.根據權利要求7所述的基于Spark框架的數據清洗裝置,其特征在于,所述屬性計算模塊包括:
配置文件獲取單元,用于根據所述待存儲數據的數據格式調用與其格式匹配的配置文件;
屬性計算單元,用于根據所述配置文件中預設的數據屬性計算規則計算所述待存儲數據的數據屬性。
10.根據權利要求9所述的基于Spark框架的數據清洗裝置,其特征在于,所述裝置還包括:
需求確定模塊,用于確定預處理數據的數據格式;
文件配置模塊,用于根據各所述數據格式確定對應的數據屬性,并將包含數據屬性的文件作為配置文件與所述數據格式進行對應保存。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都致云科技有限公司,未經成都致云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810398800.1/1.html,轉載請聲明來源鉆瓜專利網。





