[發明專利]基于特征權重的決策樹特征選擇方法在審
| 申請號: | 202010109760.1 | 申請日: | 2020-02-22 |
| 公開(公告)號: | CN111488903A | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 周紅芳;張家煒 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 張皎 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 權重 決策樹 選擇 方法 | ||
本發明公開了一種基于特征權重的決策樹特征選擇算法,具體按照以下步驟實施:步驟1、對數據集進行預處理,得到預處理數據集;步驟2、判斷數據集中是否有連續特征:對連續特征使用K?Means聚類算法進行離散化處理,非連續特征直接進入下一步;步驟3、使用改進后的ReliefF算法對經過步驟2處理過的數據集中的特征集進行過濾,保留在樣本分類時與類別相關性高的特征;步驟4、使用經過步驟3過濾得到的特征集構造決策樹。通過本發明的方法能夠提供特征選擇分類準確率,提高F1值。
技術領域
本發明屬于數據挖掘方法技術領域,涉及基于特征權重的決策樹特征選 擇方法。
背景技術
在機器學習和數據挖掘領域,往往涉及到很多高維數據集,有時還包含 大量的無關屬性和冗余屬性,這些屬性會導致機器學習算法對于測試集的分 類效果降低,影響各種預測系統在現實中的應用。因此,作為數據預處理階 段中的一個重要步驟,特征選擇可以將屬性集中的無關的冗余的屬性刪除, 提取出與分類有很高的相關性的屬性作為特征子集在下一步的分類中進行 使用,最終提升機器學習算法的分類準確率和速度。
特征選擇算法主要包含三種方式,分別是過濾式、封裝式和嵌入式特征 選擇算法。過濾式特征選擇的過程獨立于數據分類的過程,使用數據的內在 屬性對選取的屬性進行評價,主要優點是計算速度快、復雜度低,缺點是難 以確定由過濾方法選擇的屬性是否能使特定的分類器的分類精度最大;封裝 式特征選擇算法將屬性選擇的過程放到機器學習算法過程中,通過后面的學 習算法的結果選擇最合適的特征子集,該方法將特征選擇和分類的決策進行 結合,因此分類準確率高,缺點是計算復雜度高;嵌入式特征選擇算法,該方法將特征選擇過程嵌入到機器學習算法中,構建訓練模型的過程就是特征 選擇的過程,例如正則化的L1、L2算法,決策樹算法等,其中決策樹算法 作為經典的數據挖掘算法,其構成決策樹的過程就是特征選擇的過程,在決 策樹每個節點通過屬性對樣本進行劃分。因此,如何選擇屬性就成了決策樹 算法的一個非常重要的問題。目前經典的決策樹算法有基于信息增益、信息 增益率以及基尼指數的特征選擇方法。決策樹算法的優點是分類準確率高, 構成過程能夠很好地解釋,并且構建過程簡單快速,冗余屬性不會影響算法 的分類準確率,對于噪聲數據具有很好的魯棒性,缺點是容易造成過擬合, 構成的決策樹模型容易受到樣本的影響,子樹可能在決策樹中重復多次,使 得決策樹過于復雜。
發明內容
本發明的目的是提供一種基于特征權重的決策樹特征選擇方法,解決了 現有技術中存在的由于過擬合導致的決策樹模型受到樣本的影響,使得分類 準確率的問題。
本發明所采用的技術方案是,基于特征權重的決策樹特征選擇方法,具 體操作步驟如下:
步驟1、對數據集進行預處理,得到預處理數據集,其中,數據集包含 M個特征和N個樣本,N個樣本分布在K個類別中,特征集F={f1,f2,...fM}, 樣本集S={s1,s2,...sN},類別C={c1,c2,....,cK};
步驟2、判斷數據集中是否有連續特征:對連續特征使用K-Means聚類 算法進行離散化處理,非連續特征直接進入下一步;
步驟3、使用改進后的ReliefF算法對經過步驟2處理過的數據集中的 特征集進行過濾,保留在樣本分類時與類別相關性高的特征;
步驟4、使用經過步驟3過濾得到的特征集構造決策樹。
本發明的特點還在于:
步驟1具體包括:對于數據集中的缺失值使用該列特征的所有特征值的 平均值進行代替;對于數據集中不符合要求的類別值,將每個特征取值轉換 為離散型的數字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010109760.1/2.html,轉載請聲明來源鉆瓜專利網。





