[發明專利]一種基于幾何結構集成的不平衡數據分類系統在審
| 申請號: | 201811238369.0 | 申請日: | 2018-10-23 |
| 公開(公告)號: | CN109492096A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 王喆;李冬冬;朱宗海;杜文莉 | 申請(專利權)人: | 華東理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 決策區域 弱分類器 向量形式 樣本集合 數據分類系統 幾何結構 測試模塊 集成策略 輸入模塊 訓練模塊 原理設計 超平面 有效地 采集 分工 支撐 轉化 | ||
本發明公開了一種基于幾何結構集成的不平衡數據分類系統,該系統包括一下模塊:輸入模塊,根據不平衡問題的具體描述,將采集到的樣本轉化得到向量形式的樣本集合,其中,所述向量形式的樣本集合包括少數類樣本和多數類樣本;訓練模塊,用于將向量形式的樣本集合進行訓練得到系統的少數類決策區域;測試模塊,輸入待判別的樣本,判斷待判別的樣本是否在所述系統的少數類決策區域中,得到待判別樣本所屬的類別。在本發明中,利用支撐超平面原理設計了弱分類器,使得每個弱分類器都能識別不同的多數類樣本,且弱分類器之間各有分工;通過其對應決策區域空間的組合,設計的集成策略能夠有效的識別出少數類與多數類樣本,從而有效地解決不平衡問題。
技術領域
本發明涉及數據處理領域,尤其設計了一種基于樣本分布幾何結構的集成分類系統處理樣本分布不平衡數據分類系統。
背景技術
當今世界正在迎來新一輪科技發展與變革之中,人工智能將是推動其發展變革的重要力量。模式識別是研究利用計算機來模仿或實現人類或其它動物的識別能力,使得研究對象能完成自動識別的任務。眾所周知,線性或向量空間的概念廣泛存在于眾多科學領域之中,我們在使用“空間”這一概念的同時,就已經與幾何建立了密切的聯系。在模式識別領域,很多算法也都是建立在空間投影映射上。傳統的模式識別技術面臨現在許多問題如醫療診斷,金融欺詐等實例時,其中一個突出的挑戰來自不平衡數據處理問題。不平衡數據是這樣一種數據,在其內部的許多類別中,一些類別的樣本數量遠小于其余類別的樣本數量。
不平衡數據的特點是數據分布呈現不平衡性,其在實際生產生活中廣泛存在。造成不平衡問題的原因又很多。比如在醫療統計數據中,由于收集過程中會加入大量的人員數據,導致數據中健康的患者居,而真正病患占比例較小,如果在診斷過程中,將病患診斷為健康人員將會造成嚴重后果,所以我們在對健康人員和真正病患的分類過程中,我們要盡可能將真正病患分類正確。再者如金融欺詐案件中,往往大部分都是正常案件,而少部分是真正的欺詐案件,如果沒有將欺詐案件區分出來會造成嚴重的后果,所以在分類問題中,我們也要盡力將欺詐案件區分出來。由于現實問題的多樣性與復雜性及不斷涌現的新問題等,不平衡數據學習遇到相當大的挑戰,存在若干關鍵問題需要進一步研究。
傳統的模式分類方法在處理不平衡問題時,通常將多有數據一視同仁,導致決策時更偏向于多數類,然后在不平衡問題中,少數類更值得關注。為了解決不平衡問題,當前方法可以分為三類:第一類是基于采樣的方法,在數據預處理環節,通過增加少數類樣本或是減少多數類樣本,使得樣本數量趨向平衡。該類代表算法包括下采樣算法(One SideSelection)和少數類上采樣算法(Synthetic Minority Oversampling Technique)等;第二類是基于代價敏感的方法,通過增加少數類樣本的權重,使得在分類中將其誤分的代價提高,從而糾正傳統分類器決策時偏向于多數類的情況。該類代表算法主要以Cost-Sensitive Learning為主包括代價敏感局保投影算法(Cost-sensitive localitypreserving projections)、代價敏感主成分分析算法(Cost-sensitive principalcomponent analysis)及代價敏感判別分析算法(Cost-sensitive linear discriminantanalysis)等;第三類是集成方法,設計識別能力弱的分類器,這種分類器稱為弱分類器,通過將多個弱分類器集成獲得強分類結果,通常與采樣結合形成SMOTEBoost,RUSBoost等算法,與代價敏感結合形成AdaCost等算法。
目前,三類方法都存在各自不足。第一類方法較易實現,但是對于增加或刪除的樣本是否合理需要進一步討論,通常這樣做會破環原始數據的分布。第二類方法需要調整大量參數以獲取最優值,此外第二類方法計算代價,為了獲取樣本代價,需要遍歷大多數樣本,導致效率降低。第三類集成方法通常也要與采樣或是代價敏感相結合,此外弱分類器的集成中,分類器數量難以確定,過少效果不佳,過多則過度復雜。但是集成學習,能供借鑒各種方法的優點,所以能獲取更好的結果。若能設計出結構簡潔,訓練虛度快,且能很好矯正偏差的集成方法,將會進一步提高集成學習技術在不平衡問題上的處理能力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東理工大學,未經華東理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811238369.0/2.html,轉載請聲明來源鉆瓜專利網。





