[發(fā)明專利]數(shù)據(jù)清洗方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010172546.0 | 申請(qǐng)日: | 2020-03-12 |
| 公開(公告)號(hào): | CN111427873B | 公開(公告)日: | 2023-03-14 |
| 發(fā)明(設(shè)計(jì))人: | 袁佳奇;馮大輝 | 申請(qǐng)(專利權(quán))人: | 無碼科技(杭州)有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/28 |
| 代理公司: | 杭州裕陽聯(lián)合專利代理有限公司 33289 | 代理人: | 姚宇吉 |
| 地址: | 311200 浙江省杭州市蕭山區(qū)*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 清洗 方法 系統(tǒng) | ||
本發(fā)明公開一種數(shù)據(jù)清洗方法及系統(tǒng),其中方法包括:基于任務(wù)映射配置依次對(duì)第一數(shù)據(jù)中每一條數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,獲得相對(duì)應(yīng)結(jié)果數(shù)據(jù),所述第一數(shù)據(jù)包括目標(biāo)數(shù)據(jù)、樣本數(shù)據(jù)和所述樣本數(shù)據(jù)的標(biāo)準(zhǔn)結(jié)果數(shù)據(jù),所述樣本數(shù)據(jù)與所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)類型相對(duì)應(yīng),所述標(biāo)準(zhǔn)結(jié)果數(shù)據(jù)符合所述任務(wù)映射配置,所述結(jié)果數(shù)據(jù)為目標(biāo)結(jié)果數(shù)據(jù)或樣本結(jié)果數(shù)據(jù);當(dāng)所述結(jié)果數(shù)據(jù)為樣本結(jié)果數(shù)據(jù)時(shí),將所述樣本結(jié)果數(shù)據(jù)和與其相對(duì)應(yīng)的標(biāo)準(zhǔn)結(jié)果數(shù)據(jù)進(jìn)行匹配,基于匹配結(jié)果生成質(zhì)檢數(shù)據(jù)。本發(fā)明能夠在清洗過程中對(duì)清洗結(jié)果的屬性和內(nèi)容進(jìn)行質(zhì)檢,并生成相應(yīng)的質(zhì)檢數(shù)據(jù),便于工作人員根據(jù)質(zhì)檢數(shù)據(jù)及時(shí)調(diào)整清洗工作,從而在提高清洗質(zhì)量的同時(shí)提高清洗效率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種數(shù)據(jù)清洗方法及系統(tǒng)。
背景技術(shù)
數(shù)據(jù)清洗是整個(gè)數(shù)據(jù)分析過程中不可缺少的一個(gè)環(huán)節(jié),其結(jié)果質(zhì)量直接關(guān)系最終分析結(jié)論,現(xiàn)今通常采用人工核驗(yàn)的方式核驗(yàn)最終獲得的清洗結(jié)果的質(zhì)量,但通常情況下需要清洗的數(shù)據(jù)量過多,此種滯后核驗(yàn)的方式不便于對(duì)清洗方案進(jìn)行調(diào)整,且人工核驗(yàn)的效率低。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)中的缺點(diǎn),提供了一種數(shù)據(jù)清洗方法及系統(tǒng)。
為了解決上述技術(shù)問題,本發(fā)明通過下述技術(shù)方案得以解決:
一種數(shù)據(jù)清洗方法,包括基于任務(wù)映射配置依次對(duì)第一數(shù)據(jù)中每一條數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,獲得相對(duì)應(yīng)結(jié)果數(shù)據(jù)的步驟:
所述第一數(shù)據(jù)包括目標(biāo)數(shù)據(jù)、樣本數(shù)據(jù)和所述樣本數(shù)據(jù)的標(biāo)準(zhǔn)結(jié)果數(shù)據(jù),所述樣本數(shù)據(jù)與所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)類型相對(duì)應(yīng),所述標(biāo)準(zhǔn)結(jié)果數(shù)據(jù)符合所述任務(wù)映射配置;
所述結(jié)果數(shù)據(jù)為目標(biāo)結(jié)果數(shù)據(jù)或樣本結(jié)果數(shù)據(jù);
獲得結(jié)果數(shù)據(jù)后還包括質(zhì)檢步驟,具體步驟為:
當(dāng)所述結(jié)果數(shù)據(jù)為樣本結(jié)果數(shù)據(jù)時(shí),將所述樣本結(jié)果數(shù)據(jù)和與其相對(duì)應(yīng)的標(biāo)準(zhǔn)結(jié)果數(shù)據(jù)進(jìn)行匹配,基于匹配結(jié)果生成質(zhì)檢數(shù)據(jù)。
作為一種可實(shí)施方式,基于任務(wù)映射配置依次對(duì)第一數(shù)據(jù)中每一條數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,獲得結(jié)果數(shù)據(jù)具體步驟為:
所述任務(wù)映射配置包括各任務(wù)字段的名稱和屬性;
基于任務(wù)映射配置對(duì)第一數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,生成執(zhí)行數(shù)據(jù);
基于所述執(zhí)行數(shù)據(jù)生成結(jié)果數(shù)據(jù)。
作為一種可實(shí)施方式,基于任務(wù)映射配置對(duì)第一數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,生成執(zhí)行數(shù)據(jù)的具體步驟為:
每個(gè)任務(wù)字段包括相對(duì)應(yīng)的執(zhí)行數(shù)據(jù)子字段和標(biāo)準(zhǔn)結(jié)果子字段;
基于任務(wù)字段的名稱從第一數(shù)據(jù)的目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)中提取相應(yīng)數(shù)據(jù)錄入至執(zhí)行數(shù)據(jù)子字段,并從第一數(shù)據(jù)的標(biāo)準(zhǔn)結(jié)果數(shù)據(jù)中提取相應(yīng)數(shù)據(jù)錄入至標(biāo)準(zhǔn)結(jié)果子字段,生成第二數(shù)據(jù);
將第二數(shù)據(jù)的標(biāo)準(zhǔn)結(jié)果子字段進(jìn)行過濾,生成執(zhí)行數(shù)據(jù)。
作為一種可實(shí)施方式,基于所述執(zhí)行數(shù)據(jù)生成結(jié)果數(shù)據(jù)的具體步驟為:
對(duì)所述執(zhí)行數(shù)據(jù)進(jìn)行質(zhì)檢,獲得質(zhì)檢數(shù)據(jù),基于所述質(zhì)檢數(shù)據(jù)判斷是否完成數(shù)據(jù)清洗;
當(dāng)判斷結(jié)果為完成數(shù)據(jù)清洗時(shí),將所述執(zhí)行數(shù)據(jù)作為結(jié)果數(shù)據(jù);
當(dāng)判斷結(jié)果為未完成數(shù)據(jù)清洗時(shí),手動(dòng)或自動(dòng)對(duì)執(zhí)行數(shù)據(jù)進(jìn)行清洗,生成相對(duì)應(yīng)的結(jié)果數(shù)據(jù)。
作為一種可實(shí)施方式,當(dāng)所述結(jié)果數(shù)據(jù)為樣本結(jié)果數(shù)據(jù)時(shí),將所述樣本結(jié)果數(shù)據(jù)和與其相對(duì)應(yīng)的標(biāo)準(zhǔn)結(jié)果數(shù)據(jù)進(jìn)行匹配,基于匹配結(jié)果生成質(zhì)檢數(shù)據(jù)的具體步驟為:
所述第二數(shù)據(jù)包括若干條源數(shù)據(jù),每條源數(shù)據(jù)包含所有任務(wù)字段;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于無碼科技(杭州)有限公司,未經(jīng)無碼科技(杭州)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010172546.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





