[發明專利]非固定k值的最近鄰填充方法在審
| 申請號: | 201310452387.X | 申請日: | 2013-09-29 |
| 公開(公告)號: | CN103544218A | 公開(公告)日: | 2014-01-29 |
| 發明(設計)人: | 張師超;朱曉峰;劉星毅 | 申請(專利權)人: | 廣西師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 巢雄輝 |
| 地址: | 541004 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 固定 近鄰 填充 方法 | ||
1.非固定k值的最近鄰填充方法,其特征在于:包括下述步驟:
(1)把屬性分成五類:連續型,對稱二進制型,非對稱二進制型,無序離散型和有序離散型;
并定義不同類屬性實例的距離計算式;
(2)對每個缺失實例選擇最近的k個訓練實例,同時選取最符合該缺失實例的屬性;
(3)計算缺失實例跟所有訓練實例的距離,選取最近的k個無缺失實例,然后使用這k個無缺失實例對缺失實例進行缺失值填充。
2.權利要求1所述的方法,其特征在于:不同類屬性實例的距離計算式如下:
混合類型:其中代表事例i和j是否有缺失現象,如果有則為0,否則為1,f為在五類屬性中第f類屬性,n是屬性個數,dijf即為事例i和j第f類屬性的距離;兩個連續型:其中n代表在事例i和j中有n個連續屬性,Ai,k是事例i第k個屬性的屬性值,是事例i中n個連續屬性的平均值;
對稱二進制型:非對稱二進制型:其中q代表事例i和事例j的取值為“1”的個數,r代表事例i取值為“0”且事例j的取值為“1”的個數,s代表事例i取值為“1”且事例j的取值為“0”的個數,t代表事例i取值為“0”且事例j的取值為“0”的個數;
無序離散型:其中,p為無序離散型屬性的數據集個數,m是兩個事例中有相同屬性值的個數;
有序離散型:A和B之間的距離為:
3.權利要求1所述的方法,其特征在于:在步驟(2),采用稀疏編碼的原理使用無缺失的所有實例集A對當前缺失實例進行重構回歸,自動刪除A中冗余或者噪音的屬性,回歸參數為非0的個數就是使用最近鄰算法k的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西師范大學,未經廣西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310452387.X/1.html,轉載請聲明來源鉆瓜專利網。





