[發明專利]基于C-K-SMOTE算法的不平衡數據集處理方法有效
| 申請號: | 201911259004.0 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN111062425B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 郭朝有;許喆;曹蒙蒙;馬硯堃;姚乾 | 申請(專利權)人: | 中國人民解放軍海軍工程大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安研創天下知識產權代理事務所(普通合伙) 61239 | 代理人: | 郭璐 |
| 地址: | 430033 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 smote 算法 不平衡 數據 處理 方法 | ||
本發明公開了一種基于C?K?SMOTE算法的不平衡數據集處理方法,先利用Canopy算法對少數類樣本進行快速近似聚類,得到一系列canopy簇;然后再利用K?means聚類算法對canopy簇再聚類,得到精準聚類簇,最后再利用SMOTE算法基于精準聚類簇進行插值處理,從而增加少數類樣本數量使數據樣本趨向平衡。本發明中基于C?K?SMOTE算法的不平衡數據集處理方法可有效平衡不平衡數據集,既保證了新生成的樣本的有效性也保留了原數據分布模式且不存在邊界模糊問題,利用修正的SMOTE算法插值公式還避免了近鄰樣本選擇盲目性問題;本發明實現了Canopy算法和K?means算法有機融合,利用K?means再聚類解決了Canopy算法聚類精度低的問題,同時利用Canopy聚類克服了K?means算法聚類簇數難以確定以及初始中心過于隨機的問題。
技術領域
本發明涉及數據集的處理方法優化領域,尤其涉及基于C-K-SMOTE算法的不平衡數據集處理方法。
背景技術
在類別數量上分布不均衡的數據集稱為不平衡數據集,一般將類別數量多的數據樣本稱為多數類,類別數量少的數據樣本稱為少數類。不平衡數據集在信用卡詐騙、醫療診斷、網絡入侵、故障診斷等領域均廣泛存在,如何利用現有分類算法對不平衡數據進行有效分類是數據挖掘領域面臨的挑戰之一。
目前,主要從兩個方面解決不平衡數據集的分類問題:一是從數據層面出發,利用數據平衡化方法使數據集達到平衡,如過采樣或欠采樣技術等;二是從算法層面出發,通過改進現有算法使其能夠針對性地處理不平衡數據,如代價敏感學習、集成學習和單類學習等。
過采樣或欠采樣技術通過人為地增加或減少原始不平衡數據集中的少數類或多數類樣本以改變數據樣本的不平衡分布,從而使新的數據集在類別數量上達到平衡。Chawla等人提出的SMOTE(Synthetic Minority Over-Sampling Technique,SMOTE)算法是最為經典的啟發式過采樣技術,該算法在少數類樣本和其近鄰樣本之間利用隨機線性插值的方法合成新的少數類樣本。但因對少數類樣本進行無差別地選擇,導致其合成樣本質量不高。為此,Han等人提出了Borderline-SMOTE算法;Yen等人提出了先聚類再抽樣的數據平衡化方法;曹正鳳提出了C_SMOTE算法;陳斌等提出了KM-SMOTE算法,該方法先利用K-means算法聚類,然后再運用SMOTE算法進行過采樣。雖然上述改進方法在一定程度上改善了數據集的不平衡分布,但也存在著一些不足,如數據樣本分布模式改變、數據樣本重疊導致合成樣本有效性不足等。
發明內容
針對上述存在的問題,本發明旨在提供一種基于C-K-SMOTE算法的不平衡數據集處理方法,采用先聚類后插值的處理方法,既保證了新生成的樣本的有效性也保留了原數據分布模式且不存在邊界模糊問題。
為了實現上述目的,本發明所采用的技術方案如下:
基于C-K-SMOTE算法的不平衡數據集處理方法,其特征在于,包括以下步驟:
S1:利用Canopy算法對不平衡數據集的少數類樣本進行快速近似聚類,得到一系列canopy簇;
S2:利用K-means聚類算法對canopy簇再次進行聚類,得到精準聚類簇;
S3:利用SMOTE算法在每一個精準聚類簇內進行插值處理,增加少數類樣本數量使不平衡數據集趨向平衡。
進一步的,步驟S1的具體操作過程為:
S11:根據不平衡數據集的特征或者通過多次交叉實驗確定距離閾值T1和T2,其中T1>T2;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍海軍工程大學,未經中國人民解放軍海軍工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911259004.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電連接器
- 下一篇:一種堆垛機運動垂直方向的小幅度位移檢測裝置





