[發明專利]一種基于非平衡數據分布的多異質基分類器融合分類方法無效
| 申請號: | 201210460366.8 | 申請日: | 2012-11-15 |
| 公開(公告)號: | CN102945280A | 公開(公告)日: | 2013-02-27 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 翟云;江澎 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100089 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 平衡 數據 分布 多異質基 分類 融合 方法 | ||
技術領域
本發明所涉及數據挖掘的技術領域,特別是涉及一種基于非平衡數據分布的多異質基分類器融合分類方法。
背景技術
近年來,隨著數據挖掘研究的日益深入與應用的不斷擴展,越來越多的研究者愈發感受到在一些復雜數據環境下,傳統數據挖掘技術已難以適應新形勢的不斷變化。其中,針對非平衡數據分布環境的數據挖掘方法,逐漸成為該領域中的熱點問題。自Nathalie?Japkowicz全面提出面向非平衡數據集的學習后,基于非平衡數據分布環境的數據分類問題首次成了一個專門的研究主題和未來的研究重點之一。傳統的分類方法著眼于提高數據集整體分類精度,傾向偏置多數類樣本,忽略了少數類樣本的精度,故已不適合非平衡數據的分類問題。
多分類器融合方法從系統論角度出發,不但融合多種重采樣技術,而且能充分利用各基分類器的結果,故而能達到較好的精度,具有較穩定的魯棒性。融合分類器不易出現過學習,同時具有較強的泛化能力。融合分類器本身具有的這種獨特優勢使其成為近年來數據挖掘領域中的研究熱點。如在人臉識別及表情識別領域,不同分類器可以利用不同特征,采用某種組合策略,從而將多個分類器融合,使其優勢互補,從而提高整體分類的準確率和魯棒性。
2000年Thomas?G.Dietterich從統計因素、計算因素和表示因素等三個方面深入分析了融合學習的有效性。1996年和1995年Breiman,Freund分別介紹和討論了Bagging和Boosting這兩種最典型的基分類器融合方法。Freund進而提出了AdaBoost算法,該算法可以非常容易地應用到實際問題中。但這些方法僅適用于正常態數據集中,并不適應于非平衡數據集,就當前的研究進展來看,適用于非平衡數據分布環境的基分類器融合方法仍為鮮見,尤其是在算法的多樣性與分類準確度尤其是在提高少數類樣本精度方面仍面臨著難以突破的瓶頸問題。
發明內容
本發明的目的在于克服現有技術的不足,提出了一種基于非平衡數據分布的多異質基分類器融合分類方法。
為了實現上述發明目的,采用的技術方案如下:
一種基于非平衡數據分布的多異質基分類器融合分類方法,包括:
決策者利用基于差異采樣率的重采樣算法對樣本進行預處理,包括過采樣和欠采樣兩個過程;在基于差異采樣率重采樣算法中,在過采樣和欠采樣過程中均可為不同基分類器賦予不同的采樣率,從而確保各基分類器擁有不同的樣本數量;
利用基于差異采樣率重采樣算法對Undersample專家和Oversample專家的N個基分類器分別賦予訓練樣本,然后使其分別獨立生成新樣本;
計算各基分類器的分類錯誤率,進而計算出對應的權重;
由Undersample專家和Oversample專家統計各自結果;
融和最后預測結果。
所述基于差異采樣率重采樣算法對樣本進行預處理的過程(以過采樣過程為例),具體為:
A、計算正類樣本數量minsize和負類樣本數量maxsize;
B、計算maxsize與minsize的差值subsize;
C、計算采樣因子samfactor=subsize/n,其中n為基分類器數量;
D、計算各基分類器的樣本數量minsamplesizei=minsize+samfasctor·oversamratei,其中,oversamratei為第i個基分類器的過采樣率;
所述各基分類器分類錯誤率和對應權重的計算方法為:計算基分類器ht:X?→{-1,1},該基分類器在分布Dt上的誤差為:那么該基分類器的權重:
所述Undersample專家和Oversample專家統計結果的過程具體為:對于10個樣本子集,僅分別獨立保留最后一次迭代時生成的基分類器ht(x),在Undersample生成的10個樣本子集(Oversample生成的10個樣本子集)上皆生成相應的基分類器hi(x),i=1,2...10;對在上的10個基分類器進行10交叉驗證,分別計算各自錯誤率εi,令該基分類器的權重為i=1,2...10;Undersample專家和Oversample專家最后預測結果分別為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于翟云;江澎,未經翟云;江澎許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210460366.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





