[發明專利]一種基于聚類下采樣的不平衡數據分類方法在審
| 申請號: | 201710784810.4 | 申請日: | 2017-09-04 |
| 公開(公告)號: | CN107688831A | 公開(公告)日: | 2018-02-13 |
| 發明(設計)人: | 曹路 | 申請(專利權)人: | 五邑大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙)11350 | 代理人: | 湯東鳳 |
| 地址: | 529020 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聚類下 采樣 不平衡 數據 分類 方法 | ||
1.一種基于聚類下采樣的不平衡數據分類方法,其特征在于,包括下述步驟:
(1)將不平衡數據集分為訓練集和交叉驗證集兩部分;
(2)從訓練集中提取出多類樣本和少類樣本;
(3)對訓練集的多類樣本利用快速搜索和發現密度峰值聚類算法進行聚類,獲得聚類結果,將訓練集中的多類樣本分為N簇;
(4)將訓練集中多類樣本的每一簇樣本與訓練集中的少類樣本構成新的樣本集,并用支持向量機分類,獲得訓練集中多類樣本的支持向量;
(5)抽取每一簇的支持向量和訓練集中的少類樣本一起構成新的訓練集;
(6)將新的訓練集通過支持向量機進行訓練,并通過交叉驗證集進行性能評估。
2.如權利要求1所述的一種基于聚類下采樣的不平衡數據分類方法,其特征在于,步驟(1)中,訓練集合交叉集的比例根據需要進行分配,取十折交叉驗證,即將數據集分成十分,將其中9份作為訓練集,1份作為測試集。
3. 如權利要求1所述的一種基于聚類下采樣的不平衡數據分類方法,其特征在于,步驟(3)中,聚類算法實施步驟為:1)根據局部密度的定義,計算每個多類樣本點的局部密度;2)根據進行降序排序;3)令,根據相鄰密度點距離公式求得距離;4)根據和的關系決策圖,選擇簇中心,簇中心可認為是值較大的樣本點;5)根據簇中心將剩余樣本點分到各個簇中;局部密度的定義為,其中定義為,為多類樣本點到其他點的距離,為距離閾值;相鄰密度點距離定義為。
4.如權利要求1所述的一種基于聚類下采樣的不平衡數據分類方法,其特征在于,步驟(4)中,在獲取訓練集中多類樣本的每一簇樣本的支持向量時,通過調整支持向量機的懲罰參數C和核函數參數來控制支持向量的個數,支持向量在支持向量機的分類中起決策作用,包含了多類樣本的重要信息,保留了每一簇的支持向量,即保留了多類樣本包含信息量最大的樣本,剔除掉多類樣本中不是支持向量的樣本點,達到減少多類樣本點的目的。
5.如權利要求1所述的一種基于聚類下采樣的不平衡數據分類方法,其特征在于,步驟(5)中,每一簇的支持向量的合集應和訓練集中的少類樣本個數接近。
6.如權利要求1所述的一種基于聚類下采樣的不平衡數據分類方法,其特征在于,步驟(6)中,分類性能評估的標準為幾何平均正確率G-mean和少類的精確度和召回率的平均值F-measure。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于五邑大學,未經五邑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710784810.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防障礙式背光組裝機
- 下一篇:一種鉚壓工裝及鉚壓系統





