[發明專利]基于Spark框架的數據清洗方法和裝置在審

申請號：	201810398800.1	申請日：	2018-04-28
公開（公告）號：	CN108563789A	公開（公告）日：	2018-09-21
發明（設計）人：	姜光植;嚴雪楓;謝川;黃瀚林	申請（專利權）人：	成都致云科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京超凡志成知識產權代理事務所(普通合伙) 11371	代理人：	蘇勝
地址：	610000 四川省成都市高***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	數據清洗待存儲數據清洗方法和裝置屬性文件數據屬性預設真實性寫入保存
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于Spark框架的數據清洗方法，其特征在于，所述方法包括：

獲取待清洗數據；

判斷所述待清洗數據中是否滿足預設需求，若不滿足預設需求，則對所述待清洗數據進行數據清洗，并將清洗完成的數據作為待存儲數據；

計算所述待存儲數據的數據屬性，將計算得到的數據屬性寫入屬性文件中；

對所述待存儲數據和屬性文件進行保存。

2.根據權利要求1所述的基于Spark框架的數據清洗方法，其特征在于，判斷所述待清洗數據中是否滿足預設需求的步驟包括：

判斷所述待清洗數據是否滿足數據完整性需求、數據一致性需求、數據合法性需求以及數據唯一性需求中的一種或多種需求。

3.根據權利要求1所述的基于Spark框架的數據清洗方法，其特征在于，計算所述待存儲數據的數據屬性的步驟，包括：

根據所述待存儲數據的數據格式調用與其格式匹配的配置文件；

根據所述配置文件中預設的數據屬性計算規則計算所述待存儲數據的數據屬性。

4.根據權利要求3所述的基于Spark框架的數據清洗方法，其特征在于，在執行計算所述待存儲數據的數據屬性的步驟之前，所述方法還包括：

確定預處理數據的數據格式；

根據各所述數據格式確定對應的數據屬性，并將包含數據屬性的文件作為配置文件與所述數據格式進行對應保存。

5.根據權利要求4所述的基于Spark框架的數據清洗方法，其特征在于，所述數據屬性包括用于表征數據字段含義的KEY以及用于表征字段閾值的Value。

6.根據權利要求3所述的基于Spark框架的數據清洗方法，其特征在于，獲取待清洗數據的步驟包括：

通過預設數據采集工具按照預設時間間隔從數據源中采集日志數據作為待清洗數據。

7.一種基于Spark框架的數據清洗裝置，其特征在于，所述裝置包括：

數據獲取模塊，用于獲取待清洗數據；

數據判斷模塊，用于判斷所述待清洗數據中是否滿足預設需求，若不滿足預設需求，則對所述待清洗數據進行數據清洗，并將清洗完成的數據作為待存儲數據；

屬性計算模塊，用于計算所述待存儲數據的數據屬性，將計算得到的數據屬性寫入屬性文件中；

數據保存模塊，用于對所述待存儲數據和屬性文件進行保存。

8.根據權利要求7所述的基于Spark框架的數據清洗裝置，其特征在于，所述數據判斷模塊還用于：

判斷所述待清洗數據是否滿足數據完整性需求、數據一致性需求、數據合法性需求以及數據唯一性需求中的一種或多種需求。

9.根據權利要求7所述的基于Spark框架的數據清洗裝置，其特征在于，所述屬性計算模塊包括：

配置文件獲取單元，用于根據所述待存儲數據的數據格式調用與其格式匹配的配置文件；

屬性計算單元，用于根據所述配置文件中預設的數據屬性計算規則計算所述待存儲數據的數據屬性。

10.根據權利要求9所述的基于Spark框架的數據清洗裝置，其特征在于，所述裝置還包括：

需求確定模塊，用于確定預處理數據的數據格式；

文件配置模塊，用于根據各所述數據格式確定對應的數據屬性，并將包含數據屬性的文件作為配置文件與所述數據格式進行對應保存。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于成都致云科技有限公司，未經成都致云科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810398800.1/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：基于區塊鏈的數據查詢方法、裝置、服務器及存儲介質
下一篇：一種語義理解方法及裝置、設備、計算機可讀介質

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】