[發明專利]一種數據缺失屬性值的填充設備、裝置及方法在審
| 申請號: | 201910554940.8 | 申請日: | 2019-06-25 |
| 公開(公告)號: | CN110287179A | 公開(公告)日: | 2019-09-27 |
| 發明(設計)人: | 蔡延光;林楓;蔡顥 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張春輝 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類簇 數據集 數據缺失 聚類算法 屬性填充 填充設備 完整數據 聚類 算法 集合 可讀存儲介質 均值更新 數據集中 填充裝置 申請 填充 更新 優化 | ||
本申請公開了一種數據缺失屬性值的填充設備,能獲取不完全數據集;為不完全數據集中缺失屬性填充初始值,得到初始完全數據集;利用基于布谷鳥算法的聚類算法對初始完全數據集進行聚類,得到聚類簇集合;確定聚類簇集合中各聚類簇的完整數據的缺失屬性的均值,進而根據該均值更新該聚類簇中的初始值,得到目標完全數據集??梢?,該方案基于布谷鳥算法對聚類算法進行了優化,此外該方案先為缺失屬性填充初始值,再根據聚類得到的聚類簇中完整數據缺失屬性的均值對初始值進行更新,對高缺失倍率和低缺失倍率的數據都能起到較好的填充效果。此外,本申請還提供了一種數據缺失屬性值的填充裝置、方法及可讀存儲介質,其作用與上述設備的作用相對應。
技術領域
本申請涉及數據填充領域,特別涉及一種數據缺失屬性值的填充設備、裝置、方法及可讀存儲介質。
背景技術
數據集在收集與整理的過程中由于各種不可控原因導致數據的部分屬性值缺失,從而對數據的質量造成非常嚴重的影響并且降低數據挖掘的效果。因此,為了提高對不完整數據集的分析效果,對其中的缺失數據進行填充是至關重要的。
然而,現有的缺失屬性值填充方案要么對高缺失倍率數據的填充效果不理想,要么對低缺失倍率數據的填充效果不理想,難以均衡對不同缺失倍率數據的填充效果。
發明內容
本申請的目的是提供一種數據缺失屬性值的填充設備、裝置、方法及可讀存儲介質,用以解決現有的缺失屬性值填充方案難以均衡對不同缺失倍率數據的填充效果的問題。具體方案如下:
第一方面,本申請提供了一種數據缺失屬性值的填充設備,包括:
存儲器:用于存儲計算機程序;
處理器:用于執行所述計算機程序,以實現以下步驟:
獲取不完全數據集;為所述不完全數據集中缺失數據的缺失屬性填充初始值,得到初始完全數據集;利用基于布谷鳥算法的聚類算法對所述初始完全數據集進行聚類,得到聚類簇集合;確定所述聚類簇集合中聚類簇的完整數據,并確定該完整數據的缺失屬性的均值,進而根據所述均值更新所述聚類簇中缺失數據的初始值,得到目標完全數據集。
可選的,所述處理器具體用于:
對所述不完全數據集進行隨機劃分,得到多個分組;確定各個所述分組中完全數據的缺失屬性的隨機均值;根據所述分組中完全數據的缺失屬性的隨機均值,填充相應的分組中的缺失數據,得到初始完全數據集。
可選的,所述處理器具體用于:
從所述初始完全數據集隨機選取多個數據,以作為初始的聚類中心;
根據所述聚類中心,對所述初始完全數據集中的各個數據進行聚類劃分操作,得到聚類結果;
確定所述聚類結果的適應度數值;
在所述適應度數值大于當前最優聚類中心的適應度數值時,根據所述聚類中心更新所述當前最優聚類中心;
根據萊維飛行策略,對所述聚類中心進行更新;
重復執行所述聚類劃分操作,直至達到預設終止條件,得到聚類簇集合。
可選的,所述處理器還用于:
生成隨機數,并在所述隨機數大于預設閾值時,對更新后的聚類中心進行隨機改變。
可選的,所述預設終止條件為:
達到預設最大迭代次數或滿足適應度函數收斂條件。
第二方面,本申請提供了一種數據缺失屬性值的填充裝置,包括:
數據獲取模塊:用于獲取不完全數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910554940.8/2.html,轉載請聲明來源鉆瓜專利網。





