[發明專利]一種基于特征選擇和集成算法的分類方法在審
| 申請號: | 201810558775.9 | 申請日: | 2018-06-01 |
| 公開(公告)號: | CN108921197A | 公開(公告)日: | 2018-11-30 |
| 發明(設計)人: | 孫文;司華友;金廳;周佳勇;鄭飄飄 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N99/00 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 王桂名 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據集 學習器 集成算法 特征選擇 分類 單個分類器 不確定性 分類結果 概率集合 特征計算 信息增益 平均法 投票法 準確率 加權 刪除 對稱 篩選 概率 學習 | ||
1.一種基于特征選擇和集成算法的分類方法,其特征在于,包括以下步驟:
(1)對于已有的數據集S,采用信息增益率和對稱不確定性對數據集S的每個特征計算得分,設置閾值并對特征進行篩選,刪除得分小于閾值的特征,形成新的數據集S’;
(2)用多個學習器對選擇特征后的數據集S’進行學習,調整學習器參數,采用調參后的學習器對未知數據u進行訓練,計算未知數據u屬于各個類別的概率集合,使用平均法和加權投票法對概率集進行集成計算,從而得到數據u應分類的類別。
2.根據權利要求1所述的基于特征選擇和集成算法的分類方法,其特征在于,所述的步驟1包括以下步驟:
(1.1)收集n個特征形成數據集S={(xi,yi)},其中xi為第i條記錄的特征集,yi為第i條記錄的人工標記分類結果,xi=(xi1,xi2,...,xin),總特征集合為f={f1,f2,...,fn},計算該數據集中各個特征的信息增益率得分Scoregr(fj);
(1.2)針對步驟1.1數據集S,計算各特征的對稱不確定性得分Scoresu(fj);
(1.3)計算各個特征的總得分,Score(fj)=Scoregr(fj)+Scoresu(fj);
(1.4)計算每個特征得分在所有特征總得分中的比重,
(1.5)設定得分占比閾值M,去除得分占比小于得分占比閾值M的特征,形成新的數據集S’。
3.根據權利要求1所述的基于特征選擇和集成算法的分類方法,其特征在于,所述的步驟2包括以下步驟:
(2.1)用多個學習器對篩選后的數據集S’進行學習,調整各學習器的參數;
(2.2)學習器的類別集合為{c1,c2,...,ck},學習器的數量為T,用調參后的學習器對未知數據u進行學習,得到每個學習器針對未知數據u屬于各類別的概率集{h1T,h2T,…,hkT},k表示類別的數量;
(2.3)其中,T1個學習器的性能相近,用hji(x)表示第i個學習器預測未知數據u類別為cj的概率,用加權平均法得到的未知數據u的類別為cj的概率,計算公式為
(2.4)針對其它性能差異較大的算法,將這些算法與步驟2.3中使用平均法的算法使用加權投票法進行集成,設wavg為步驟2.3中T1個學習器對應的平均權值,wi為剩余學習器中第i個學習器對應的權值,則將加權投票法得到的預測樣本類別為cj的概率記為
(2.5)根據步驟2.3和步驟2.4中兩個方法得到的概率hj,可以根據其得到預測未知數據u應分類為的類別c,分類結果為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810558775.9/1.html,轉載請聲明來源鉆瓜專利網。





