[發(fā)明專利]數(shù)據(jù)清理方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910308949.0 | 申請(qǐng)日: | 2019-04-17 |
| 公開(公告)號(hào): | CN110162519A | 公開(公告)日: | 2019-08-23 |
| 發(fā)明(設(shè)計(jì))人: | 張禮成 | 申請(qǐng)(專利權(quán))人: | 蘇寧易購(gòu)集團(tuán)股份有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/2455 |
| 代理公司: | 北京市萬(wàn)慧達(dá)律師事務(wù)所 11111 | 代理人: | 黃玉東 |
| 地址: | 210000 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 清洗 數(shù)據(jù)流 判定規(guī)則 刪除 數(shù)據(jù)安全性 第一數(shù)據(jù) 過濾處理 獲取數(shù)據(jù) 數(shù)據(jù)建立 數(shù)據(jù)清理 數(shù)據(jù)清洗 數(shù)據(jù)輸出 數(shù)據(jù)源 預(yù)設(shè) 字段 填充 檢測(cè) 申請(qǐng) | ||
1.一種數(shù)據(jù)清洗方法,所述方法包括:
從第一數(shù)據(jù)源中獲取數(shù)據(jù),利用獲取的數(shù)據(jù)建立一個(gè)獨(dú)立的數(shù)據(jù)流;
對(duì)所述數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行過濾處理,得到待清洗數(shù)據(jù);
對(duì)所述待清洗數(shù)據(jù)中包含缺失值的字段進(jìn)行刪除或填充,得到初步清洗數(shù)據(jù);
檢測(cè)所述初步清洗數(shù)據(jù)是否符合預(yù)設(shè)的判定規(guī)則,刪除不符合判定規(guī)則的數(shù)據(jù),得到最終清洗數(shù)據(jù);
將所述最終清洗數(shù)據(jù)輸出到第二數(shù)據(jù)源。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述待清洗數(shù)據(jù)中包含缺失值的字段進(jìn)行刪除或填充包括:
根據(jù)字段的缺失值條數(shù)占總條數(shù)的比例,計(jì)算得到字段的缺失率;
根據(jù)需要分析的指標(biāo),確定字段的屬性重要程度;
根據(jù)字段的缺失率和屬性重要程度,對(duì)所述包含缺失值的字段進(jìn)行刪除或填充。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)字段的缺失率和屬性重要程度,對(duì)所述包含缺失值的字段進(jìn)行刪除或填充包括:
當(dāng)字段的缺失率低于預(yù)設(shè)的缺失率閾值且屬性重要程度低于預(yù)設(shè)的重要評(píng)級(jí)閾值時(shí),對(duì)字段進(jìn)行填充;
當(dāng)字段的缺失率不低于預(yù)設(shè)的缺失率閾值且屬性重要程度低于預(yù)設(shè)的重要評(píng)級(jí)閾值時(shí),刪除字段;
當(dāng)字段的缺失率不低于預(yù)設(shè)的缺失率閾值且屬性重要程度高于預(yù)設(shè)的重要評(píng)級(jí)閾值時(shí),對(duì)字段的缺失值進(jìn)行補(bǔ)全。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
探查第一數(shù)據(jù)源中數(shù)據(jù)的描述數(shù)據(jù)屬性的元數(shù)據(jù),根據(jù)所述元數(shù)據(jù)分析得到數(shù)據(jù)存在的質(zhì)量問題,根據(jù)所述質(zhì)量問題設(shè)定過濾規(guī)則;
所述對(duì)所述數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行過濾處理,得到待清洗數(shù)據(jù),包括:根據(jù)所述過濾規(guī)則對(duì)所述數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行過濾處理,得到待清洗數(shù)據(jù)。
5.根據(jù)權(quán)利要求1至4任意一項(xiàng)所述的方法,其特征在于,所述對(duì)所述數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行過濾處理包括:
行級(jí)過濾,將數(shù)據(jù)中不需要的行剔除掉;
列級(jí)過濾,當(dāng)一行具有多個(gè)列的時(shí)候,只選取并保留所需列對(duì)應(yīng)的字段。
6.根據(jù)權(quán)利要求1至4任意一項(xiàng)所述的方法,其特征在于,所述預(yù)設(shè)的判定規(guī)則包括合法性規(guī)則和邏輯規(guī)則,所述檢測(cè)所述初步清洗數(shù)據(jù)是否符合預(yù)設(shè)的判定規(guī)則包括:
如果所述初步清洗數(shù)據(jù)不符合所述合法性規(guī)則,將所述初步清洗數(shù)據(jù)設(shè)為符合所述合法性規(guī)則的最大值,或者刪除;
如果所述初步清洗數(shù)據(jù)不符合所述邏輯規(guī)則,將所述初步清洗數(shù)據(jù)刪除,并生成警告指令。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一數(shù)據(jù)源和第二數(shù)據(jù)源為同一分布式消息系統(tǒng)的不同數(shù)據(jù)類別,進(jìn)一步地,所述分布式消息系統(tǒng)為Kafka,所述第一數(shù)據(jù)源和第二數(shù)據(jù)源為Kafka的兩個(gè)不同的Topic;所述數(shù)據(jù)流采用基于Spark Streaming的數(shù)據(jù)流。
8.一種數(shù)據(jù)清洗裝置,其特征在于,所述裝置包括:
數(shù)據(jù)獲取模塊,用于從第一數(shù)據(jù)源中獲取數(shù)據(jù),利用獲取的數(shù)據(jù)建立一個(gè)獨(dú)立的數(shù)據(jù)流;
數(shù)據(jù)過濾模塊,用于對(duì)所述數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行過濾處理,得到待清洗數(shù)據(jù);
初步清洗模塊,用于對(duì)所述待清洗數(shù)據(jù)中包含缺失值的字段進(jìn)行刪除或填充,得到初步清洗數(shù)據(jù);
最終清洗模塊,用于檢測(cè)所述初步清洗數(shù)據(jù)是否符合預(yù)設(shè)的判定規(guī)則,刪除不符合判定規(guī)則的數(shù)據(jù),得到最終清洗數(shù)據(jù);
數(shù)據(jù)輸出模塊,用于將所述最終清洗數(shù)據(jù)輸出到第二數(shù)據(jù)源。
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇寧易購(gòu)集團(tuán)股份有限公司,未經(jīng)蘇寧易購(gòu)集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910308949.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡(luò)數(shù)據(jù)流識(shí)別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設(shè)備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語(yǔ)言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時(shí)分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)流類型識(shí)別模型更新方法及相關(guān)設(shè)備
- 一種進(jìn)行話后總結(jié)的方法和裝置
- 自適應(yīng)計(jì)步處理系統(tǒng)及方法
- 一種用于檢測(cè)SQL代碼缺陷的方法和裝置
- 用于檢測(cè)惡意程序的判定模型及惡意程序的檢測(cè)方法
- 基于報(bào)警信息組合判定的提高報(bào)警準(zhǔn)確率的方法和裝置
- 一種配電終端故障自診斷方法及系統(tǒng)
- 一種交易風(fēng)險(xiǎn)評(píng)估方法和裝置
- 臟數(shù)據(jù)識(shí)別方法及裝置、數(shù)據(jù)清洗方法及裝置、控制器
- 一種數(shù)據(jù)判定的方法和裝置
- 一種特征判定規(guī)則建立以及網(wǎng)絡(luò)流量判定方法和系統(tǒng)





