[發(fā)明專利]一種不平衡數(shù)據(jù)集過采樣方法在審
| 申請?zhí)枺?/td> | 201810330218.1 | 申請日: | 2018-04-13 |
| 公開(公告)號: | CN108763283A | 公開(公告)日: | 2018-11-06 |
| 發(fā)明(設計)人: | 徐小龍;陳穩(wěn) | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經(jīng)緯專利商標代理有限公司 32200 | 代理人: | 田凌濤 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 過采樣 邊界樣本 核心樣本 聚類算法 數(shù)據(jù)集 分類問題 有效解決 噪聲樣本 優(yōu)化 樣本 合成 | ||
本發(fā)明涉及一種不平衡數(shù)據(jù)集過采樣方法,將傳統(tǒng)過采樣方法,與優(yōu)化后基于密度的聚類算法相結合,有效解決了不平衡數(shù)據(jù)的分類問題,其中,利用優(yōu)化的聚類算法去除了少數(shù)類的噪聲樣本,使得合成的樣本更加合理有效,為了充分利用了邊界樣本和核心樣本的信息,對核心樣本和邊界樣本采用了不同策略進行過采樣。
技術領域
本發(fā)明涉及一種不平衡數(shù)據(jù)集過采樣方法,屬于數(shù)據(jù)預處理技術領域。
背景技術
不平衡數(shù)據(jù)分類問題是機器學習領域內一個重要的研究課題,引起國內外學者的廣泛關注。不平衡數(shù)據(jù)集是指在多類別的數(shù)據(jù)集中,某些類別樣本的數(shù)目遠小于其他類別樣本的數(shù)目,各個類別樣本的數(shù)目存在著嚴重的不平衡現(xiàn)象。不平衡數(shù)據(jù)集廣泛存在于人們的現(xiàn)實生活和工業(yè)生產(chǎn)之中,比如垃圾郵件過濾、文本分類、醫(yī)療診斷等都存在數(shù)據(jù)不平衡問題,在這些領域,相比多數(shù)類樣本,我們更加關心少數(shù)類樣本。
目前對不平衡數(shù)據(jù)集分類的研究,主要集中在算法層面和數(shù)據(jù)層面。基于算法層面,大都是針對非平衡數(shù)據(jù)特點提出新的算法或者改進現(xiàn)有的算法,包括集成方法、代價敏感學習方法。雖然能夠提高少數(shù)類樣本的分類準確率,但仍然有局限性,對于不同特征的數(shù)據(jù)集,其適用的分類算法不一樣,即每種分類算法有其最適合的情況。基于數(shù)據(jù)層面,大都是基于K鄰近思想,計算量大,容易受到噪聲數(shù)據(jù)影響。
發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種采用全新架構設計,能夠有效提高數(shù)據(jù)分類準確性的不平衡數(shù)據(jù)集過采樣方法。
本發(fā)明為了解決上述技術問題采用以下技術方案:本發(fā)明設計了一種不平衡數(shù)據(jù)集過采樣方法,基于已知各數(shù)據(jù)樣本所屬類別,完成數(shù)據(jù)的過采樣,其特征在于,包括如下步驟:
步驟A.針對目標數(shù)據(jù)樣本集中的各個數(shù)據(jù)樣本,進行維度空間坐標轉換,獲得各個數(shù)據(jù)樣本分別所對應的維度空間坐標,然后進入步驟B;
步驟B.針對目標數(shù)據(jù)樣本集,刪除其中與任意數(shù)據(jù)樣本之間不存在密度相連關系的數(shù)據(jù)樣本,更新目標數(shù)據(jù)樣本集,并構建指定少數(shù)類核心數(shù)據(jù)樣本集合,以及指定少數(shù)類邊界數(shù)據(jù)樣本集合,然后進入步驟C;
步驟C.分別針對指定少數(shù)類核心數(shù)據(jù)樣本集合中的各個核心數(shù)據(jù)樣本,執(zhí)行過采樣操作,更新目標數(shù)據(jù)樣本集,然后進入步驟D;
步驟D.分別針對指定少數(shù)類邊界數(shù)據(jù)樣本集合中的各個邊界數(shù)據(jù)樣本,執(zhí)行過采樣操作,更新目標數(shù)據(jù)樣本集。
作為本發(fā)明的一種優(yōu)選技術方案,所述步驟B包括如下步驟:
步驟B1.針對目標數(shù)據(jù)樣本集中,除被定義為核心數(shù)據(jù)樣本、待定邊界數(shù)據(jù)樣本、噪聲數(shù)據(jù)樣本以外的各個數(shù)據(jù)樣本,任意選取一個數(shù)據(jù)樣本,判斷以該數(shù)據(jù)樣本維度空間坐標為球心,預設Eps領域內其它數(shù)據(jù)樣本的數(shù)量是否小于預設核心判斷數(shù)量閾值MinPts,是則定義該數(shù)據(jù)樣本為噪聲數(shù)據(jù)樣本,并進入步驟B3;否則定義該數(shù)據(jù)樣本為核心數(shù)據(jù)樣本,并進入步驟B2;
步驟B2.構建本次循環(huán)中所獲核心數(shù)據(jù)樣本所對應的簇,將該核心數(shù)據(jù)樣本劃分至該簇中,并針對目標數(shù)據(jù)樣本集中、除被定義為核心數(shù)據(jù)樣本、待定邊界數(shù)據(jù)樣本以外的各個數(shù)據(jù)樣本,選擇與該核心數(shù)據(jù)樣本之間存在密度相連關系的各個數(shù)據(jù)樣本,將其定義為待定邊界數(shù)據(jù)樣本,然后進入步驟B3;
步驟B3.判斷目標數(shù)據(jù)樣本集中,除被定義為核心數(shù)據(jù)樣本、待定邊界數(shù)據(jù)樣本、噪聲數(shù)據(jù)樣本以外,是否存在其它數(shù)據(jù)樣本,是則返回步驟B1;否則進入步驟B4;
步驟B4.分別針對各個待定邊界數(shù)據(jù)樣本,首先獲得以待定邊界數(shù)據(jù)樣本維度空間坐標為球心,預設Eps領域內的各個核心數(shù)據(jù)樣本,接著獲得該各個核心數(shù)據(jù)樣本分別所對應簇的簇中心,然后獲得該待定邊界數(shù)據(jù)樣本分別至該各簇中心的歐式距離,最后將該待定邊界數(shù)據(jù)樣本劃分至最短歐式距離所對應的簇中,進而完成各個待定邊界數(shù)據(jù)樣本向各個簇的劃分,然后進入步驟B5;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經(jīng)南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810330218.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





