[發明專利]一種基于聚類和邊界點的不平衡數據處理方法在審
| 申請號: | 202011463010.0 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112633337A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 姜誠;楊海波;張爽 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍江省哈*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 邊界 不平衡 數據處理 方法 | ||
本發明公開了一種基于聚類和邊界點的不平衡數據處理方法,首先獲取不平衡數據比例,計算要合成的少數類樣本數;然后利用DBSCAN聚類方法對少數類樣本聚類,找出聚類個數較少的簇,作為噪聲點去除;再計算任意少數類樣本的K近鄰樣本距離之和,以距離平均值為半徑,統計半徑區域少數類樣本中多數類個數,歸一化處理得到樣本邊界區域權重;此外,以每個聚類簇為區域,計算聚類中心到簇中所有樣本的距離,以距離倒數作為樣本權重;最后,在每個邊界區域和聚類中心利用SMOTE合成算法;得到的新數據集和原數據集合并,采用交叉驗證劃分數據,然后使用隨機森林分類算法進行測試。本發明讓合成的樣本分布更加合理,通過實驗證明在分類器上表現性能更加良好。
技術領域
本發明屬于模式識別技術領域,具體涉及一種針對不平衡數據集的分類器以及處理方 法。
背景技術
不平衡在金融風控、反欺詐、廣告推薦和醫療診斷中普遍存在。通常而言,不平衡數 據正負樣本的比例差異極大,如在Kaggle競賽中的桑坦德銀行交易預測和IEEE-CIS欺詐檢 測數據。對模型而言,不均衡數據構建的模型會更愿意偏向于多類別樣本的標簽,實際應用 價值較低。傳統的分類器對不平衡數據集進行分類時,由于多數類樣本更容易學習,導致分 類結果偏向于多數類,但人們最感興趣的往往是少數類。例如軟件缺陷預測中,幾乎所有的 數據集都是不平衡的,有缺陷的樣本屬于少數類,無缺陷的樣本屬于多數類,在實際應用中 為有缺陷樣本預測錯誤所付出的代價是慘痛的。因此,分類不平衡問題逐漸成為機器學習領 域的研究熱點,尤其是正確識別其中的少數類。
近年來,科研人員提出了多種針對不平衡數據集的分類方法。根據作用對象的不同, 這些方法主要可以被分為算法層面和據層面兩個主要方面。
算法層面的處理方法主要包括集成學習和代價敏感學習方法,這些方法通過修改分類 算法在數據集上的偏置,使得分類決策向少數類偏移,從而有效提升分類器在不均衡數據集 上的分類精度。但是無端的使分類決策偏移并不能改變樣本分布,預測的效果性能往往不好。
數據層面的處理方法是基于某種規則,通過刪減多數類樣本或者增加少數類樣本來改 善原始數據的不均衡比,使樣本盡可能地均衡化,方便進行分類模型的訓練。然而在一些小 型樣本和樣本數量較少的數據中,如果使用欠采樣方法,將導致最后的訓練樣本數據量較少, 不能得到好的預測模型。
從上述分析可以看出,算法層面和據層面雖然都可以減輕數據不平衡對分類效果產 生的影響,但兩種方法均存在一定的局限性。
發明內容
本發明的目的是提出一種不平衡數據的改善方法,并對合成的樣本分布更加合理,使 得不平衡樣本在分類器上表現性能良好。
本發明目的能夠通過以下技術方案實現。
一種基于聚類和邊界點的不平衡數據處理方法,該方法包括以下步驟:
設原始不平衡數據集中少數樣本數目為D,多數樣本數目為N。根據少數類和多數類 樣本數目,計算不平衡數據需要新生成的少數類樣本總數Q;
具體地,需要新生成的少數類樣本Q=I*(N-D),其中I是要合成的不平衡比,本發明 取值為1;
利用DBSCAN聚類方法對少數類樣本進行聚類,找出聚類簇中少數較少的點,以此作 為樣本噪聲點刪除,形成G個類簇。
具體地,輸入少數類樣本數據集D,給定點在鄰域內成為核心對象的最小鄰域點數: MinPts,鄰域半徑:Eps;最后得到去除噪聲點的少數類樣本M,樣本形成n個類簇(C1,C2,……, CG);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011463010.0/2.html,轉載請聲明來源鉆瓜專利網。





