[發明專利]一種基于混合特征KDE條件熵的特征選擇方法有效
| 申請號: | 201710526050.7 | 申請日: | 2017-06-30 |
| 公開(公告)號: | CN107391433B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 代建華;徐思琪;高帥超 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F17/10 | 分類號: | G06F17/10 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉玥 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 特征 kde 條件 選擇 方法 | ||
本發明提供一種新的基于混合特征KDE條件熵的特征選擇方法,該方法提出了混合特征KDE概率和混合特征KDE熵,在不將連續數據離散的情況下將離散特征和連續特征有效統一于KDE熵中,拓展了信息理論并提出了基于混合特征KDE條件熵的貪心特征選擇方法。
技術領域
本發明涉及特征選擇方法,具體是指一種基于混合特征KDE條件熵的特征選擇方法。
背景技術
隨著數據的存儲能力以及計算能力的提高,數據大小以及數據維度越來越大,給數據挖掘或機器學習任務帶來了更大的壓力。特征選擇作為數據挖掘、模式識別、機器學習任務重要的預處理步驟,從大量的屬性中,消去冗余、無關的屬性,降低了數據維度、提高了算法的效率。
信息論中的熵和互信息等概念在特征選擇中占據重要的地位,具備著無需先驗知識檢測非線性關系、抗噪聲干擾等優點。然而基于信息理論的特征選擇方法主要是針對離散屬性的,對于連續特征,大多采取離散化的方式以適應傳統的特征選擇方法。核密度估計(KDE)是一種對隨機變量的概率密度函數進行無參估計的方法。將KDE與信息理論中的熵結合,目前基于KDE熵的特征選擇方法具有較好的效果,但是已有的方法只是針對連續特征。針對著這個問題,本發明拓展了信息理論,使得基于KDE熵能夠適用于混合特征。
發明內容
本發明的目的是為了處理混合特征的特征選擇,而提出一種新的基于混合特征KDE條件熵的特征選擇方法。該方法提出了混合特征KDE熵,拓展了信息理論并提出了基于混合特征KDE條件熵的貪心特征選擇方法。
本發明采用技術方案是:
一種基于混合特征KDE條件熵的特征選擇方法,包括如下步驟:
步驟一,輸入包括決策特征D的數據集U,其中,數據集U有n個樣本,決策特征D={1,2,...,N},離散特征向量Α={A1,A2,...,Am},連續特征向量X={X1,X2,...,Xt},窗寬參數h,停止閾值T;
步驟二,設已選擇的特征集為B,未選擇的特征集為E,初始值設為E=A∪X,每選擇一個特征前后的條件熵之差
步驟三,通過特征集E中的每一屬性S和特征集B中的所有屬性建立臨時特征集B′;
步驟四,對于B′中連續特征集X′的每一種取值x,和決策屬性集D中的每一種取值d以及B′中離散特征集A′的每一種取值a,計算KDE概率和
步驟五,通過步驟四中獲得KDE概率計算基于混合特征KDE條件熵和以及基于混合特征KDE聯合熵其中記為離散屬性集A′的值域,為連續屬性集X′的值域,為決策集D的值域;
步驟六,選擇條件熵最小的屬性加入到特征集B中,獲得已選屬性B=B∪{S*},并從未選擇的特征集中刪除E=E-{S*};
步驟七,通過步驟六中B=B∪{S*}獲得加入新屬性前后的條件熵之差,即
步驟八,判斷步驟七中條件熵之差是否大于閾值T并且特征集B中的特征個數小于數據集總的特征數,即如果滿足條件,返回步驟三;否則輸出特征集B。
所述步驟四中KDE概率通過公式(1)生成:
所述步驟四中KDE概率通過公式(2)生成:
所述步驟四中KDE概率通過公式(3)生成:
所述步驟四中KDE概率通過公式(4)生成:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710526050.7/2.html,轉載請聲明來源鉆瓜專利網。





