[發明專利]數據清洗方法及數據清洗裝置在審
| 申請號: | 201710011044.8 | 申請日: | 2017-01-06 |
| 公開(公告)號: | CN108280096A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 趙強;楊敏 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 邢雪紅;姜怡 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據清洗 原始樣本 數據篩選 清洗 篩選 機制設定 全面清洗 用戶設定 時長 | ||
1.一種數據清洗方法,其特征在于,包括:
獲取待清洗的原始樣本數據;
確定對所述原始樣本數據進行清洗的至少一種數據篩選機制,并獲取用戶根據所述原始樣本數據對每種所述數據篩選機制設定的篩選值;
根據所述至少一種數據篩選機制和用戶設定的所述篩選值對所述原始樣本數據進行篩選,以對所述原始樣本數據進行清洗。
2.根據權利要求1所述的數據清洗方法,其特征在于,在所述至少一種數據篩選機制包括樣本剔除機制、且所述篩選值包括目標樣本特征的情況下,對所述原始樣本數據進行篩選的步驟,包括:
對所述原始樣本數據進行分析,以得到所述原始樣本數據中的至少一個樣本特征和每個樣本特征對應于的樣本數據;
將與所述目標樣本特征相對應的樣本數據作為篩選出的樣本數據,并刪除所述原始樣本數據中的其它樣本數據。
3.根據權利要求1所述的數據清洗方法,其特征在于,在所述至少一種數據篩選機制包括評分矩陣篩選、且所述篩選值包括評分矩陣題目的起止位置的情況下,對所述原始樣本數據進行篩選的步驟,包括:
針對所述原始樣本數據中的任一樣本數據,計算所述任一樣本數據中的評分矩陣題目的答題數;
判斷所述答題數是否等于所述任一樣本數據中的評分矩陣題目的總數目;
若所述答題數等于所述總數目,則計算所述任一樣本數據對應的評分矩陣的方差,并根據所述任一樣本數據對應的評分矩陣的方差確定是否將所述任一樣本數據從所述原始樣本數據中刪除;
若所述答題數不等于所述總數目,則將所述任一樣本數據從所述原始樣本數據中刪除。
4.根據權利要求3所述的數據清洗方法,其特征在于,根據所述任一樣本數據對應的評分矩陣的方差確定是否將所述任一樣本數據從所述原始樣本數據中刪除的步驟,包括:
若所述任一樣本數據對應的評分矩陣的方差為0,則將所述任一樣本數據從所述原始樣本數據中刪除;
若所述任一樣本數據對應的評分矩陣的方差不為0,則在所述原始樣本數據中保留所述任一樣本數據。
5.根據權利要求1所述的數據清洗方法,其特征在于,在所述至少一種數據篩選機制包括作答時間篩選、且所述篩選值包括作答時間存儲位置的情況下,對所述原始樣本數據進行篩選的步驟,包括:
針對所述原始樣本數據中的任一樣本數據,根據所述作答時間存儲位置獲取所述任一樣本數據的作答時間;
判斷所述任一樣本數據的作答時間是否與所述任一樣本數據對應的作答標準時間相匹配;
若所述任一樣本數據的作答時間與所述作答標準時間不匹配,則將所述任一樣本數據從所述原始樣本數據中刪除;
若所述任一樣本數據的作答時間與所述作答標準時間相匹配,則在所述原始樣本數據中保留所述任一樣本數據。
6.根據權利要求5所述的數據清洗方法,其特征在于,還包括:
在獲取到所述原始樣本數據之后,將所述原始樣本數據中答題數相同的樣本數據歸為同一組,以得到至少一組樣本數據;
針對所述至少一組樣本數據中的任一組樣本數據,計算所述任一組樣本數據的平均作答時間和所述任一組樣本數據的作答時間的標準差;
根據所述任一組樣本數據的平均作答時間、所述任一組樣本數據的作答時間的標準差和所述任一組樣本數據中的每個樣本數據的作答時間,計算所述每個樣本數據對應的作答標準時間。
7.根據權利要求6所述的數據清洗方法,其特征在于,根據以下公式計算所述任一組樣本數據中的每個樣本數據對應的作答標準時間:
其中,Z表示所述每個樣本數據對應的作答標準時間,x表示所述每個樣本數據的作答時間,表示所述任一組樣本數據的平均作答時間,δ表示所述任一組樣本數據的作答時間的標準差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710011044.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:智能虛擬客服系統
- 下一篇:一種數據庫系統的故障處理方法和裝置





