[發明專利]基于對稱不確定性聯合條件熵的特征選擇方法在審
| 申請號: | 202111363477.2 | 申請日: | 2021-11-17 |
| 公開(公告)號: | CN114169406A | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 周紅芳;王晨光;連延彬 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 王丹 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 對稱 不確定性 聯合 條件 特征 選擇 方法 | ||
1.基于對稱不確定性聯合條件熵的特征選擇方法,其特征在于,具體按照以下步驟實施:
步驟1、對連續型樣本數據集的特征值進行離散化處理,得到特征值離散化后的樣本數據,并將樣本數據按照9:1的比例隨機劃分出訓練集和測試集;
步驟2、將訓練集所有樣本數據作為候選特征集合F的元素,使用互信息計算集合F中所有候選特征與各個樣本所屬的類別之間的互信息值,選擇出互信息值最大的特征放入集合S中,將去除互信息值最大的特征的候選特征集合F作為候選特征子集F′;
步驟3、遍歷候選特征子集F′中每一個候選特征,使用基于對稱不確定性聯合條件熵的特征選擇算法計算每一個候選特征的條件對稱不確定度,將對稱不確定度最高的候選特征加入集合S中;
步驟4、使用集合S測試分類器分類的準確率,并將得到的準確率與前一次的分類準確率進行比較,若準確率得到提升,則保留該集合S內新添加的特征,作為候選特征子集F′的特征,否則剔除該候選特征;
步驟5、重復步驟3、步驟4,最終得到的集合S內的特征為基于對稱不確定性聯合條件熵的特征。
2.根據權利要求1所述基于對稱不確定性聯合條件熵的特征選擇方法,其特征在于,步驟1所述連續型樣本數據集為ASU特征選擇庫中的數據集合。
3.根據權利要求1所述基于對稱不確定性聯合條件熵的特征選擇方法,其特征在于,步驟2具體過程為:
步驟2.1、定義一個初始集合為空集的集合S,將特征空間的所有特征作為候選特征集合F的元素,根據公式(1)計算候選特征集合F中每個特征fi與所有類別之間的互信息值I(fi;C);
其中,表示特征fi的特征值離散化的段數,NC是數據集中所有樣本所屬的類別總數;ck表示第k個類別,p(fij)表示第i個特征對應取第j段離散化后的特征值時所對應的樣本數與數據集的所有樣本總數的比值,p(ck)表示屬于第k個類別的樣本的數量占數據集所有樣本的比率,p(fi,ck)表示第i個特征對應取第j段離散化后的特征值時且屬于第k個類別的所有樣本在數據集中所占的比例;
步驟2.2、根據互信息值對所有特征進行降序排序,選擇互信息I(fi;C)值最大的候選特征fmax,并放入集合S中,此時得到候選特征子集F′=F-{fmax};
fmax=arg max fi∈F[I(fi;C)] (2)。
4.根據權利要求1所述基于對稱不確定性聯合條件熵的特征選擇方法,其特征在于,步驟3具體過程為:
步驟3.1、根據公式(3)計算集合S中已選特征fi已知的情況下候選特征子集F′中的候選特征ft和所有類別之間的條件互信息;
步驟3.2、根據公式(4)計算集合S中每一個特征fi與所有類別之間的條件熵大小H(fi|C);
其中,表示特征fi的特征值離散化的段數,NC是樣本的類別總數;
步驟3.3、根據公式(5)計算候選特征子集F′中每一個候選特征ft與所有類別之間的條件熵大小H(ft|C);
其中,表示特征ft的特征值離散化的段數;
步驟3.4、根據公式(6)求出計算特征子集F′中每一個候選特征ft的條件對稱不確定度的大小COSU(ft);
步驟3.5、根據公式(7)求出平均條件對稱不確定度最大的候選特征ft,并將候選特征ft放入集合S中;
其中,M表示集合S中元素的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111363477.2/1.html,轉載請聲明來源鉆瓜專利網。





