[發明專利]一種用于不平衡數據的基于X-mean和樣本錯分類率集成分類方法在審
| 申請號: | 201810991730.0 | 申請日: | 2018-08-28 |
| 公開(公告)號: | CN109063787A | 公開(公告)日: | 2018-12-21 |
| 發明(設計)人: | 王穎;汝吉東 | 申請(專利權)人: | 齊齊哈爾大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 齊齊哈爾鶴城專利事務所 23207 | 代理人: | 劉麗 |
| 地址: | 161006 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 弱分類器 構建 分類結果 樣本 集成分類 子集 計算機技術領域 集成分類器 分類樣本 平衡數據 平衡子集 算法數據 樣本聚類 樣本子集 分類器 訓練集 分類 算法 | ||
1.一種用于不平衡數據的基于X-mean和樣本錯分類率集成分類方法,其特征在于:包括以下步驟:
步驟1.基于X-mean算法的樣本子集構建方法
設訓練集S={Sneg,Spos},我們采用K-means算法對反例樣本進行聚類,對于給定的反例樣本集D,其中含有n個樣本;設定閾值為正反例樣本比例T,將反例樣本劃分為T個簇,分別為K1,K2,..…,Kt,其中,Ki,Kj∈D,即各簇之間交集為空,劃分的T個簇具有簇內相似,組間相異特點;
對于任意的簇Ki,定義km為它的質心,質心通過簇內特征集平均值方法獲得,而簇內任意樣本kn與質心的距離定義為dist(kn,km),將簇K1的質量E定義為簇內所有樣本特征集與質心距離的平方和,如下:
通過計算期初最優距離分布,使樣本在所在簇內距離最小,而與其他簇距離最大,簇與簇之間最大程度相互獨立;基于K-means算法構建質心近距離訓練樣本平衡方法偽代碼描述為:
步驟2.弱分類器平衡數據子集構建
正反例數據比為T,將所有反例樣本分為T組,對于每一組,選取T分之一距離聚類質心距離最近的樣本被選取構成訓練子集1的反例樣本Sneg1;接下來Sneg1與所有正例樣本Spos聯合構成平衡的訓練子集1 S1,即
S1=Sneg1∪Spos
接下來,訓練第一個弱分類器,訓練集S采用該分類器進行分類,而且,錯分類樣本集1Sincor1與訓練子集1S1一起構成新的訓練子集2 S2用來訓練下一個分類器;因此,訓練子集Si定義為:
Si=Spos∪Sneg1∪Sincorr(i-1)∪Sincorr(i-2)…∪Sincorr1
步驟3.弱分類器構建
分類器輸入為所有候選者,輸出為每一候選為真的概率,最后,根據實際情況確定選取需要結果,弱分類器選擇貝葉斯、支持向量機、隨機森林和決策樹算法中的一個;
步驟4.基于AdaBoost算法集成分類器構建
基于AdaBoost算法集成分類器構建算法描述如下:
設有訓練集樣本S={(xi,yi)|i=1,2,...n},其中xi∈X為樣本,yi∈Y=(+1,-1}為樣本類別,
第一步,初始化樣本權值,設定訓練集S在第t輪訓練中樣本xi權值為Dt(i),其中第一輪樣本權值初始化為:
D1=(P11,P12…P1i...,P1N),P11=P12=…=P1N=1/N
第二步,訓練弱分類器,在訓練過程中,給定每一個樣本為真概率,選取概率最大候選者類別為+1,其他候選者類別為-1,即分類器Gt(X):X→{-1,+1};
第三步,設定訓練輪數T;
第四步,定義訓練集S的權值分布:
Dt={Pt1,Pt2,...,PtN}
其中Dt是由每個樣本權重組成向量集。從訓練集S中,根據樣本權重構建訓練子集St;
第五步,計算訓練子集錯分率,假定Gt(X):X→Y},樣本錯分率:
第六步,計算樣本及分類器權重,分類器權重為:
樣本集權重更新為:
Dt+1=(Pt+1,1,Pt+1,2…Pt+1,i…,Pt+1,N) (8)式(8)中,
式(9)中,zt定義為下一輪訓練集權重,是一個一般化常量,定義為:
最后,根據各弱分類器Gt(X)及其權重集成分類器,定義為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于齊齊哈爾大學,未經齊齊哈爾大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810991730.0/1.html,轉載請聲明來源鉆瓜專利網。





