[發明專利]基于特征權重的決策樹特征選擇方法在審
| 申請號: | 202010109760.1 | 申請日: | 2020-02-22 |
| 公開(公告)號: | CN111488903A | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 周紅芳;張家煒 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 張皎 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 權重 決策樹 選擇 方法 | ||
1.基于特征權重的決策樹特征選擇算法,其特征在于,具體按照以下步驟實施:
步驟1、對數據集進行預處理,得到預處理數據集,其中,數據集包含M個特征和N個樣本,N個樣本分布在K個類別中,特征集F={f1,f2,...fM},樣本集S={s1,s2,...sN},類別C={c1,c2,...cK};
步驟2、判斷數據集中是否有連續特征:對連續特征使用K-Means聚類算法進行離散化處理,非連續特征直接進入下一步;
步驟3、使用改進后的ReliefF算法對經過步驟2處理過的數據集中的特征集進行過濾,保留在樣本分類時與類別相關性高的特征;
步驟4、使用經過步驟3過濾得到的特征集構造決策樹。
2.根據權利要求1所述的基于特征權重的決策樹特征選擇算法,其特征在于:所述步驟1具體包括:對于數據集中的缺失值使用該列特征的所有特征值的平均值進行代替;對于數據集中不符合要求的類別值,將每個特征取值轉換為離散型的數字。
3.根據權利要求1所述的基于特征權重的決策樹特征選擇算法,其特征在于:所述步驟2中對連續特征使用K-Means聚類算法進行離散化處理具體按照以下步驟實施:
步驟2.1、使用輪廓系數法確定每個連續特征的聚類簇數;
步驟2.2、依次將每個樣本中的每個連續特征的值按照其與k個聚類中心的歐式距離的遠近劃分到不同的簇中,每個簇對應一個離散特征值;
步驟2.3、重復以上的過程將所有連續特征都轉換為離散型特征。
4.根據權利要求3所述的基于特征權重的決策樹特征選擇算法,其特征在于:所述步驟2.1具體為:假設聚類簇數為k,設k從2到10,在數據集中隨機選擇一個樣本i,計算與同一簇中其他樣本的歐式距離的平均值a(i),歐式距離計算公式如下:
同時計算樣本i與其他簇中每個樣本的距離的平均值b(i),輪廓系數計算公式如下:
將輪廓系數值最大時對應的k值作為該連續特征的聚類簇數。
5.根據權利要求1所述的基于特征權重的決策樹特征選擇算法,其特征在于:所述步驟3具體按照以下步驟實施:
步驟3.1、在數據集中隨機選擇一個樣本R,計算R與同類別樣本中每個樣本間的歐氏距離,選擇k個與R距離最短的同類樣本作為最近鄰樣本,計算每個與R不同類別的樣本中每個樣本間的歐式距離,分別在每個不同類樣本集中選擇k個與R距離最近的樣本作為不同類最近鄰;
步驟3.2、將步驟3.1重復M次,計算每個特征的特征權重值W(A),公式如下:
對于離散型特征值,diff(A,Ix,Iy)公式如下:
步驟3.3、將經過步驟3.2計算得到的每個特征的特征權重值從大到小進行排序,形成特征權重向量;
步驟3.4、若特征集中特征個數為奇數,將特征權重向量中的中位數作為特征權重閾值β,若特征集中特征個數為偶數,將特征權重向量的最中間兩個數的平均值作為特征權重閾值β;
步驟3.5、使用步驟3.4得到的特征權重閾值β對特征集進行過濾,將特征集中特征權重值小于β的特征進行刪除,保留特征權重值大于等于β的特征。
6.根據權利要求1所述的基于特征權重的決策樹特征選擇算法,其特征在于:所述步驟4具體按照以下步驟實施:
步驟4.1、構造決策樹的每一層時計算每個特征的特征權重值;
步驟4.2、選擇特征權重值最大的特征作為劃分特征,并將該特征從特征集中刪除,進行遞歸構造決策樹,直到達到構造決策樹的終止條件,形成一個決策樹。
7.根據權利要求6所述的基于特征權重的決策樹特征選擇算法,其特征在于:所述步驟4.1具體按照以下步驟實施:
步驟4.1.1、在數據集中隨機選擇一個樣本R,計算R與同類別樣本中每個樣本間的歐氏距離,選擇k個與R距離最短的同類樣本作為最近鄰樣本,計算每個與R不同類別的樣本中每個樣本間的歐式距離,分別在每個不同類樣本集中選擇k個與R距離最近的樣本作為不同類最近鄰;
步驟4.1.2、將步驟4.1.1重復M次,計算每個特征的特征權重值W(A),公式如下:
對于離散型特征值,diff(A,Ix,Iy)公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010109760.1/1.html,轉載請聲明來源鉆瓜專利網。





