[發明專利]數據清洗方法及數據清洗裝置在審
| 申請號: | 201710011044.8 | 申請日: | 2017-01-06 |
| 公開(公告)號: | CN108280096A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 趙強;楊敏 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 邢雪紅;姜怡 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據清洗 原始樣本 數據篩選 清洗 篩選 機制設定 全面清洗 用戶設定 時長 | ||
本發明提供了一種數據清洗方法及數據清洗裝置,該數據清洗方法包括:獲取待清洗的原始樣本數據;確定對所述原始樣本數據進行清洗的至少一種數據篩選機制,并獲取用戶根據所述原始樣本數據對每種所述數據篩選機制設定的篩選值;根據所述至少一種數據篩選機制和用戶設定的所述篩選值對所述原始樣本數據進行篩選,以對所述原始樣本數據進行清洗。本發明的技術方案能夠實現對原始樣本數據的全面清洗,并且能夠降低數據清洗過程對操作人員的依賴,確保數據清洗結果的準確性與穩定性,同時也能夠有效縮短數據清洗的時長。
技術領域
本發明涉及數據處理技術領域,具體而言,涉及一種數據清洗方法及數據清洗裝置。
背景技術
在用戶的定量研究和輕量級數據的處理過程中,均需對數據進行清洗處理,以剔除異常數據,保證數據結果的信度和效度。目前,因調研數據和輕量級數據的多變性,對數據往往采取人工清洗的方式,缺少統一、標準的清洗流程,人工清洗的方式主要存在以下問題:
1、數據清洗耗時長,人工清洗的方式依賴于操作人員進行數據判斷,且判斷后需要一步步完成清洗,需要大量時間;
2、數據清洗容易出現遺漏,操作人員在進行大量數據操作時會因為某些條件遺漏而導致部分樣本未被清洗;
3、數據清洗結果不穩定,數據清洗的結果會因操作人員的不同而出現清洗結果不一致的問題;
4、數據清洗過程不可回溯,當出現清洗失誤時無法回查修正;
5、數據清洗結果核查費時費力,清洗完成后需對數據進行重新統計,核查數據清洗結果。
因此需要一種新的數據清洗方案來對數據進行清洗。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本發明的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本發明的目的在于提供一種數據清洗方法及數據清洗裝置,進而至少在一定程度上克服由于相關技術的限制和缺陷而導致的一個或者多個問題。
本發明的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本發明的實踐而習得。
根據本發明的一個方面,提供一種數據清洗方法,包括:
獲取待清洗的原始樣本數據;
確定對所述原始樣本數據進行清洗的至少一種數據篩選機制,并獲取用戶根據所述原始樣本數據對每種所述數據篩選機制設定的篩選值;
根據所述至少一種數據篩選機制和用戶設定的所述篩選值對所述原始樣本數據進行篩選,以對所述原始樣本數據進行清洗。
在本發明的一種示例性實施例中,在所述至少一種數據篩選機制包括樣本剔除機制、且所述篩選值包括目標樣本特征的情況下,對所述原始樣本數據進行篩選的步驟,包括:
對所述原始樣本數據進行分析,以得到所述原始樣本數據中的至少一個樣本特征和每個樣本特征對應于的樣本數據;
將與所述目標樣本特征相對應的樣本數據作為篩選出的樣本數據,并刪除所述原始樣本數據中的其它樣本數據。
在本發明的一種示例性實施例中,在所述至少一種數據篩選機制包括評分矩陣篩選、且所述篩選值包括評分矩陣題目的起止位置的情況下,對所述原始樣本數據進行篩選的步驟,包括:
針對所述原始樣本數據中的任一樣本數據,計算所述任一樣本數據中的評分矩陣題目的答題數;
判斷所述答題數是否等于所述任一樣本數據中的評分矩陣題目的總數目;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710011044.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:智能虛擬客服系統
- 下一篇:一種數據庫系統的故障處理方法和裝置





