[發明專利]非平衡類數據的分類在審
| 申請號: | 201410100293.0 | 申請日: | 2014-03-18 |
| 公開(公告)號: | CN104933053A | 公開(公告)日: | 2015-09-23 |
| 發明(設計)人: | 楊鴻超;趙金濤;邱雪濤;王駿 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 李湘;湯春龍 |
| 地址: | 200135 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平衡 數據 分類 | ||
發明領域
本發明涉及數據挖掘技術,特別涉及非平衡類數據分類器的訓練方法、非平衡類數據分類器和非平衡類數據分類的方法。
背景技術
分類是數據挖掘和機器學習中最常用的技術之一,其根據一組已知類別的對象訓練得到分類器,然后將未知類別的對象應用于該分類器以確定相應的類別。在非平衡類數據中,某類樣本的數量遠遠大于其它類樣本,其中前者被稱為負類數據,后者被稱為正類數據。
實際應用(例如信用卡交易欺詐檢測、網絡入侵檢測、醫學疾病診斷等)中常會遇到非平衡類數據的分類問題,這類問題的共同點是少數類信息是用戶關注的重點。例如在信用卡交易欺詐檢測的應用中,更為關心的是欺詐客戶,但是監測到的數據集中大部分是信用卡正常交易記錄,非法交易所占比例很小。用于處理分類問題的現有技術有很多種,如決策樹、貝葉斯網絡、支持向量機等,但這些技術多針對平衡數據而設計,未考慮到正類和負類數據分布的巨大差異性,因此處理效果不佳。
目前,非平衡類數據的分類主要采用兩種思路:一是改變訓練集樣本的分布,降低不平衡度,主要包括改變數據集分布的重采樣方法,其缺點是分類效果依賴于重采樣算法,而對于很多應用來說,數據集的最優分布難以確定;二是針對非平衡類數據特點構造新算法或改造現有算法(例如代價敏感學習方法、特征選擇方法和單類學習方法等),代價敏感學習方法的缺點是很難對錯誤分類的代價給出準確的估計,使得整體性能提升得不到保障,特征選擇方法更多的是適用于文本分類的問題,適用范圍受到較大限制,單類學習方法的缺點是僅僅利用少數正類數據,完全忽略了負類數據中蘊涵的有用信息。
由上可見,迫切需要一種性能優秀和適用范圍大的非平衡類數據處理技術。
發明內容
本發明的一個目的是提供一種訓練非平衡類數據分類器的方法,其具有信息挖掘充分、全面和分類精度高等優點。
在按照本發明一個實施例的訓練非平衡類數據分類器的方法中,由所述非平衡類數據分類器進行分類的數據具有多個屬性,所述方法包含下列步驟:
將所述多個屬性劃分為多個屬性組,每個所述屬性組對應一個子分類器,每個所述子分類器適于基于對應的所述屬性組對數據進行分類,使得能夠根據預先設定的規則,由各個所述子分類器的分類結果得到最終的分類結果;
將訓練數據樣本劃分為多個測試集;以及
對于每個所述屬性組,利用不同的所述測試集訓練對應的子分類器。
優選地,在上述方法中,將所述多個屬性劃分為n個屬性組并且將訓練數據樣本劃分為(n+1)個測試集,在子分類器的訓練步驟中,按照下列方式訓練第i個子分類器:
利用前(i-1)個子分類器對第i個測試集的訓練數據樣本進行分類以得到(i-1)組正類數據;
將所述(i-1)組正類數據的交集作為進一步的訓練數據樣本來訓練第i個子分類器。
優選地,在上述方法中,按照隨機方式將訓練數據樣本劃分為多個測試集。
優選地,在上述方法中,利用最大召回率算法來訓練第i個子分類器。
優選地,在上述方法中,按照屬性之間的相關性將所述多個屬性劃分為多個屬性組,所述相關性較大的屬性被劃分在不同的屬性組內。
本發明的還有一個目的是提供一種非平衡類數據分類器,其具有高分類精度和分類效率等優點。
按照本發明一個實施例的非平衡類數據分類器包括:
數據接收單元;
多個子分類器,由所述非平衡類數據分類器進行分類的數據具有多個屬性,所述多個屬性被劃分為多個屬性組,每個所述屬性組對應一個所述子分類器,每個所述子分類器被配置為并行地從所述數據接收單元接收數據并且基于對應的所述屬性組對接收的數據進行分類;以及
與所述多個子分類器耦合的決策節點,其配置為根據預先設定的規則,由各個所述子分類器輸出的分類結果得到最終的分類結果,
其中,按照下列方式訓練所述非平衡類數據分類器:將訓練數據樣本劃分為多個測試集,對于每個所述屬性組,利用不同的所述測試集訓練對應的子分類器。
優選地,在上述非平衡類數據分類器中,所述多個子分類器和所述決策節點在多個物理上并行的計算設備上實施。
優選地,在上述非平衡類數據分類器中,所述決策節點取各個所述子分類器輸出的正類數據的交集作為最終的分類結果。
本發明的還有一個目的是提供一種非平衡類數據分類的方法,其具有高分類精度和分類效率等優點。
按照本發明一個實施例的非平衡類數據分類的方法包括下列步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410100293.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據處理的方法和系統
- 下一篇:個人填表信息輔助翻譯方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





