[發明專利]基于Stacking和翻轉隨機降采樣分類方法、系統、介質及設備在審
| 申請號: | 201810132427.5 | 申請日: | 2018-02-08 |
| 公開(公告)號: | CN108416369A | 公開(公告)日: | 2018-08-17 |
| 發明(設計)人: | 蔣昌俊;閆春鋼;劉關俊;丁志軍;張亞英;張裕威;欒文靜 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 王華英 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 組件分類 測試樣本 分類 集成分類器 原始訓練集 訓練子集 降采樣 翻轉 分布特征 分類結果 數據分類 特征組成 不均衡 分類器 區分度 輸出 表現 | ||
基于Stacking和翻轉隨機降采樣分類方法、系統、介質及設備,包括:獲取原始訓練集,將原始訓練集劃分為數目大于等于兩個的不同的訓練子集;為每一訓練子集建立數目大于等于兩個的不同的組件分類器;將每個組件分類器的輸出作為特征進行訓練,生成集成分類器;獲取測試樣本,根據每一組件分類器依次分類測試樣本得組件分類結果,以組件分類結果為特征組成一新測試樣本,以集成分類器分類新測試樣本得最終分類結果,本發明解決了現有技術存在的不均衡數據分類精度差、無法識別少數類、分布特征表現有效性低和分類器區分度較低的技術問題。
技術領域
本發明涉及一種不均衡數據分類方法,特別是涉及一種基于Stacking和翻轉隨機降采樣數據分類方法、系統、介質及設備。
背景技術
隨著數據挖掘研究中應用范圍的不斷擴大和解決問題的不斷深入,新的挑戰和障礙層出不窮,產生了一系列新問題,其中不均衡數據集的分類就是一個被廣泛關注的重要問題。不均衡數據分類考慮的是各類樣本數目不均衡情況下的分類學習問題,目前很多機器學習算法假定或期望數據集具有均衡類分布或相等的誤分類代價,因此,當處理復雜的不均衡數據集時,這些算法不能有效地表現數據的分布特征,從而嚴重影響分類器的性能。由于二分類問題在生活中最為常見,故本技術只針對二分類問題加以解決。目前解決不均衡數據問題的技術主要對數據層面和算法層面加以解決。數據層面主要技術為重采樣技術,算法層面主要技術為分類器融合技術。重采樣技術通過增加少數類樣本或消除多數類樣本來平衡數據。現有的重采樣技術對數據重采樣后都是讓多數類樣本個數多于或等于少數類樣本個數。但傳統的機器學習算法會偏向于預測多數類樣本,導致少數類樣本無法被準確的分類,影響最終分類器性能;分類器融合技術通過將數據集劃分成多個均衡的數據子集,每個數據子集訓練一個分類器,然后通過某種組合策略(例如投票)將多個分類器組合。但這無法區分不同分類器的性能強弱,從而達不到最優分類效果。
綜上所述,現有技術的不均衡數據分類方法不能有效地表現數據的分布特征,傳統的機器學習算法會偏向于預測多數類樣本,導致少數類樣本無法被準確的分類,影響最終分類器性能,無法區分不同分類器的性能強弱,存在不均衡數據分類精度差、無法識別少數類、分布特征表現有效性低和分類器區分度較低的技術問題。
發明內容
鑒于以上現有技術存在交易安全性低和身份認證準確度不高的技術問題,本發明的目的在于提供一種基于Stacking和翻轉隨機降采樣分類方法、系統、介質及設備,解決現有技術存在的不均衡數據分類精度差、無法識別少數類、分布特征表現有效性低和分類器區分度較低的技術問題,一種基于Stacking和翻轉隨機降采樣分類方法,包括:
獲取原始訓練集,將原始訓練集劃分為數目大于等于兩個的不同的訓練子集;
為每一訓練子集建立數目大于等于兩個的不同的組件分類器;
將每個組件分類器的輸出作為特征進行訓練,生成集成分類器;
獲取測試樣本,根據每一組件分類器依次分類測試樣本得組件分類結果,以組件分類結果為特征組成一新測試樣本,以集成分類器分類新測試樣本得最終分類結果。
于本發明的一實施方式中,獲取原始訓練集,將原始訓練集劃分為數目大于等于兩個的不同的訓練子集具體包括:
接收原始訓練集D;
將原始訓練集D分為多數類樣本集合A和少數類樣本集合B;
初始化已抽樣次數i及降采樣次數k;
判斷已抽樣次數i是否小于降采樣次數k;
若是,則不放回地循環抽取多數類樣本集合A中的多數類樣本,其中每次抽取多數類樣本的個數n為n=ceil(|B|2/|A|);
以n個多數類樣本與所有的少數類樣本構成一訓練子集Di;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810132427.5/2.html,轉載請聲明來源鉆瓜專利網。





