[發明專利]一種改進的對缺失值插補的算法在審
| 申請號: | 201611122144.X | 申請日: | 2016-12-08 |
| 公開(公告)號: | CN108197079A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 吳劍文;許飛月;陳樂焱;陶波 | 申請(專利權)人: | 廣東精點數據科技股份有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18 |
| 代理公司: | 北京隆源天恒知識產權代理事務所(普通合伙) 11473 | 代理人: | 閆冬 |
| 地址: | 510630 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 插補 算法 測試集 準確度 改進 缺失數據 數據集 數據組 訓練集 記錄 類聚 預測 | ||
本發明公開一種改進的對缺失值插補的算法,包括:對所有數據進行層次類聚、針對含有缺失值的類,根據是否有缺失值的記錄,將記錄分為完全數據組m1和缺失數據組m2、將m1中的數據隨機分成訓練集和測試集,用k種插補方法預測測試集,得出準確度最高的方法、判斷此方法是否為弱方法,若是,結合bagging算法得到該類的缺失值插補的函數,若否,該算法為最終算法、運用最終插補函數對該類的缺失值進行插補、判斷是否存在還有缺失值的類。所述改進的對缺失值插補的算法會根據數據特有的性質,在眾多的缺失值插補方案中,選擇比較適合該數據集的方法,利用bagging算法的原理,對比各種方法對缺失值的插補效果,從而得出比較實用該數據的缺失值插補的方法。
技術領域
本發明涉及數據分析預處理領域,具體涉及一種改進的對缺失值插補的算法。
背景技術
當今社會正處于一個大數據時代,在許多問題的研究中,常有數據缺失或無法獲得數據的情況發生,導致無法全面有效地運用數據進行分析研究。為了避免對研究造成影響,研究者從設計的階段就應該開始采取各種措施避免研究過程中產生缺失值,對于已經產生的缺失值,則要盡可能地采取措施進行補救。對缺失數據插補合理的估計值,可減少由于數據缺失導致的估計量偏差,力圖構造一個完整數據集,便于統計分析方法的使用。在對缺失值插補的模擬研究中通過比較插補值與真實值的近似度來衡量插補結果。比較常見的缺失值插補方法有:均值替換法、熱卡填充法、回歸替換法、多重替代法等幾十種。研究表明,每種方法有其各自的適用條件和優缺點,數據缺失比例不同的時候,不同方法的填充效果不同。另外,有些方法對數據的分布有很強的依賴性,例如最大似然法,但實際生活中收集到的數據的分布往往難以確定。
由于數據的缺失情況在實際運用中因不同行業,不同變量,不同類型而異,且數據分布情況以及缺失情況不能清晰地確定等,無法確定用哪種方法進行缺失值插補最為合適。在實際運用中往往根據個人主觀和以往經驗來選擇插補方法進行缺失值插補,對缺失值插補的合理性和正確性難以把握,需要一種方案來解決選擇插補方法的難題。
鑒于上述缺陷,本發明創作者經過長時間的研究和實踐終于獲得了本發明。
發明內容
為解決上述技術缺陷,本發明采用的技術方案在于,提供一種改進的對缺失值插補的算法,該算法包括以下步驟:
步驟S1:對所有數據進行層次類聚;
步驟S2:針對含有缺失值的類,根據是否有缺失值的記錄,將記錄分為完全數據組m1和缺失數據組m2;
步驟S3:將m1中的數據隨機分成訓練集和測試集,用k種插補方法預測測試集,得出準確度最高的方法,k為自然數;
步驟S4:判斷此方法是否為弱算法,若是,結合bagging算法得到該類的缺失值插補的函數,若否,該算法為最終算法;
步驟S5:運用最終插補函數對該類的缺失值進行插補;
步驟S6:判斷是否存在還有缺失值的類,若是,回到步驟S2,若否,結束算法。
較佳的,所述步驟S3中的插補方法包括均值替換法,熱卡填充法,回歸替換法,多重替代法。
較佳的,所述步驟S4中結合bagging算法獲得函數的思路為:判斷缺失值是否為離散型,若是,則直接根據投票結果對缺失值進行插補,否則,通過得票的平均值對缺失值進行插補。
較佳的,所述步驟S3中采用K-S正態性檢驗評價不同方法處理后的數據集是否符合正態分布。
較佳的,所述步驟S3中采用Wi lcoxon符號秩和檢驗比較處理后的數據集與完整數據集的分布是否來自同一總體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東精點數據科技股份有限公司,未經廣東精點數據科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611122144.X/2.html,轉載請聲明來源鉆瓜專利網。





