[發明專利]一種改進的對缺失值插補的算法在審
| 申請號: | 201611122144.X | 申請日: | 2016-12-08 | 
| 公開(公告)號: | CN108197079A | 公開(公告)日: | 2018-06-22 | 
| 發明(設計)人: | 吳劍文;許飛月;陳樂焱;陶波 | 申請(專利權)人: | 廣東精點數據科技股份有限公司 | 
| 主分類號: | G06F17/18 | 分類號: | G06F17/18 | 
| 代理公司: | 北京隆源天恒知識產權代理事務所(普通合伙) 11473 | 代理人: | 閆冬 | 
| 地址: | 510630 廣東省廣*** | 國省代碼: | 廣東;44 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 插補 算法 測試集 準確度 改進 缺失數據 數據集 數據組 訓練集 記錄 類聚 預測 | ||
1.一種改進的對缺失值插補的算法,包括以下步驟:
步驟S1,對所有數據進行層次類聚;
步驟S2,針對含有缺失值的類,根據是否有缺失值的記錄,將記錄分為完全數據組m1和缺失數據組m2;
步驟S3,將m1中的數據隨機分成訓練集和測試集,用k種插補方法預測測試集,得出準確度最高的方法,k為自然數;
步驟S4,判斷此方法是否為弱算法,若是,結合bagging算法得到該類的缺失值插補的函數,若否,該算法為最終算法;
步驟S5,運用最終插補函數對該類的缺失值進行插補;
步驟S6,判斷是否存在還有缺失值的類,若是,回到步驟S2,若否,結束算法。
2.如權利要求1所述改進的對缺失值插補的算法,其特征在于,所述步驟S3中的插補方法包括均值替換法,熱卡填充法,回歸替換法,多重替代法。
3.如權利要求1所述改進的對缺失值插補的算法,其特征在于,所述步驟S4中結合bagging算法獲得函數的思路為:判斷缺失值是否為離散型,若是,則直接根據投票結果對缺失值進行插補,否則,通過得票的平均值對缺失值進行插補。
4.如權利要求2或3所述改進的對缺失值插補的算法,其特征在于,所述步驟S3中采用K-S正態性檢驗評價不同方法處理后的數據集是否符合正態分布。
5.如權利要求2或3所述改進的對缺失值插補的算法,其特征在于,所述步驟S3中采用Wilcoxon符號秩和檢驗比較處理后的數據集與完整數據集的分布是否來自同一總體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東精點數據科技股份有限公司,未經廣東精點數據科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611122144.X/1.html,轉載請聲明來源鉆瓜專利網。





