[發明專利]一種基于啟發式采樣的集成學習方法在審
| 申請號: | 202010057454.8 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111275206A | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 蔣昌俊;閆春鋼;丁志軍;劉關俊;張亞英;廣明鑒 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06N20/20 | 分類號: | G06N20/20;G06K9/62 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 徐迪怡 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 啟發式 采樣 集成 學習方法 | ||
一種啟發式采樣的集成學習方法,適用于不均衡數據集的分類,所述方法包括:根據數據集中所有樣本在特征空間的分布特征對數據集劃分第二類別;根據各樣本的所述第二類別分別設定不同的硬度權重,結合不均衡權重計算各樣本的選中概率;根據各樣本所述選中概率對數據集重采樣,并對重采樣后的數據集進行集成訓練,獲得最終的分類結果。本方法基于樣本的內在特征進行有側重的重采樣,以提高不均衡數據集的采樣質量,從而提高現有的集成學習方法對于不均衡數據集的分類效果。
技術領域
本發明涉及數據挖掘和機器學習技術領域,尤其是涉及一種基于啟發式采樣的集成學習方法。
背景技術
近年來,數據挖掘和機器學習模型廣泛應用于生活中的各個領域。其中,分類問題是機器學習領域中面臨的重要任務之一。傳統分類模型的構建通?;谌缦录僭O:數據集中各個類別樣本數量是均衡的。然而在許多現實應用中,這種假設是不成立的,即數據集中存在著類別不均衡的現象。如:交易欺詐檢測、網絡入侵檢測、生物基因檢測、垃圾郵件過濾等,其數據都是不均衡的。而當這種不均衡現象發生時,分類器對數量上較少的類別識別準確率將變得很低。在實際應用中,這些少數類樣本通常具有很高的價值,將這些樣本誤分類為多數類會帶來巨大的損失。如:交易欺詐檢測中,非法交易類別(少數類)如果被誤分為合法交易(多數類),將帶來嚴重的經濟損失。
目前在不均衡數據的處理問題上,集成學習的方法得到了廣泛應用。集成學習的學習過程主要包括兩個階段。第一個階段,使用數據預處理技術(欠采樣或者過采樣)對不均衡的數據集預處理,獲得相對均衡的數據集子集。第二個階段,利用機器學習模型在預處理獲得的相對均衡的數據集子集上訓練并得到最終的分類模型。然而,集成學習在數據集預處理階段尚存在不足。首先,集成學習中的采樣方法往往都是過采樣或者欠采樣其中的一種,而過采樣和欠采樣都存在一定的弊端。其中,過采樣在采樣過程中往往會生成大量的少數類樣本,使得運行時間大大提升;而欠采樣在采樣過程中會刪除部分的多數類樣本,從而導致丟失部分信息。其次,現有的采樣方法在選擇樣本的過程中往往僅側重于調節不同類別之間的比例均衡,而并未考慮樣本數據的內在屬性特征。對于噪聲、邊界、稀缺樣本等不同屬性的樣本被選中的概率均相同,導致采集到大量的無效樣本同時也易丟失重要的樣本信息,使得采樣質量降低。并且,隨著數據集的不均衡比和數據集中樣本數量的增加,采集到無效樣本的概率將大大增加。
發明內容
鑒于以上現有集成方法在處理不均衡數據集時存在的缺點,本發明的目的在于提供一種啟發式采樣的集成學習方法,用于解決現有集成學習方法對不均衡數據集的采樣質量不高,以及由于預采樣數據不均衡而使所述集成學習方法對數據集的分類效果降低的問題。
為實現上述目的及其他相關目的,本發明提供一種啟發式采樣的集成學習方法,通過采用對少數類別過采樣和對多數類別欠采樣的組合方式對數據集進行重采樣,并結合每個樣本的特征屬性進行有側重的采樣,以提高不均衡數據集的采樣質量,從而提高集成學習方法對于不均衡數據集的分類效果。
所述啟發式采樣的集成學習方法的步驟包括:對數據集的所有樣本根據所述樣本的第一類別以及在特征空間的分布特征劃分第二類別;計算數據集中每個樣本的選中概率;根據所述選中概率采用集成學習算法對數據集重采樣和集成訓練,獲得最終的分類結果。其中,所述第一類別為所述數據集中樣本的原始類別,所述第二類別為基于各所述樣本在特征空間的分布特征所劃分的類別。
于本發明一實施例中,所述選中概率的計算步驟包括:對于數據集中的任意樣本xi,根據所述數據集中所有樣本的所述第一類別總數和所述樣本xi的標簽值對應的所述第一類別的樣本數計算所述樣本xi的不均衡權重;根據所述樣本xi的所述第二類別以及所述樣本xi在特征空間內的局部分布特征計算硬度權重;根據所述不均衡權重和所述硬度權重,計算所述樣本xi的所述選中概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010057454.8/2.html,轉載請聲明來源鉆瓜專利網。





