[發明專利]一種基于密度聚類的非均衡數據集的均衡化方法及裝置在審
| 申請號: | 201910496790.X | 申請日: | 2019-06-10 |
| 公開(公告)號: | CN110298451A | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 顧凌云;謝旻旗;段灣;王存偉;張濤;羅雨晨;張陽;喬韻如;黃海濤;馮杰;王震宇;周軒;潘峻 | 申請(專利權)人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06N20/20 | 分類號: | G06N20/20 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 滕詣迪 |
| 地址: | 200120 上海市上海自*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本點 數據集 密度聚類 非均衡 樣本 均衡化 聚類 合成樣本 均衡結果 剔除 | ||
本發明提供了一種基于密度聚類的非均衡數據集的均衡化方法及裝置,其中方法包括:獲取非均衡數據集,確定少數類樣本點的數據集和多數類樣本點的數據集;對少數類樣本的數據集進行密度聚類,根據少數類樣本點的聚類情況,對少數類樣本進行合成樣本點的操作,得到處理后的少數類樣本點;對多數類樣本的數據集進行密度聚類,根據多數類樣本點的聚類情況,對多數類樣本進行剔除樣本點的操作,得到處理后的多數類樣本點;根據處理后的少數類樣本點和處理后的多數類樣本點得到非均衡數據集的均衡結果。
技術領域
本發明涉及非均衡數據集均衡化技術領域,尤其涉及一種基于密度聚類的非均衡數據集的均衡化方法及裝置。
背景技術
一般的機器學習分類問題中,分類常以整體取得最大準確率為目的,每一類的錯分代價是一樣的,用于訓練的數據集中各類別的樣本數目基本相同,沒有過大的差別。
然而實際應用中,數據集中各類別樣本的數目往往是不同的,以風控全流程貸前審批環節為例,模型建模中,好樣本的數目遠遠大于壞樣本的數目,并且兩類標簽樣本被錯分的代價也是不同的。
傳統機器學習為了能夠獲得最大準確率,則必然會使得算法更關注于多數類別分類精度的提升,而忽略甚至犧牲數據集中小樣本集合的分類精度。
為了解決在非均衡數據集上的機器學習分類問題,目前一般的非均衡數據集分類方法往往都是從數據的處理和算法的選擇上找尋問題的解決方案。
從數據集處理考慮,一般嘗試在數據集預處理階段,改變數據集中類別的分布,重構數據集,達到將非均衡數據集均衡化的目的。從算法角度考慮,改進方向一般是對數據集中樣本設置不同的權重,或者調整分類界面,應用代價敏感學習分類算法等。
數據集處理重構數據集常用方法一般是簡單的隨機過采樣或者是隨機欠采樣,都存在著明顯的問題。隨機過采樣,它是以增加少數類樣本的方式,來達到多數類樣本和少數類樣本的均衡,如若簡單的復制樣本,在沒有為整個數據集添加新的信息來輔助之后的分類器的建立的同時,反而會使得之后在數據集上的學習問題出現過擬合的情況。隨機欠采樣則是將針對多數類樣本處理的方法,它是通過減少多數類樣本的數目來減弱多數類樣本數目與少數類樣本數目的差異。但是如果在多數類樣本上不加以區別對待,而是隨機進行樣本的剔除,則極有可能發生在本就數量有限的樣本數據集上,把對整個數據集非常有用的信息損失掉。
發明內容
本發明旨在提供一種克服上述問題之一或者至少部分地解決上述任一問題的基于密度聚類的非均衡數據集的均衡化方法及裝置。
為達到上述目的,本發明的技術方案具體是這樣實現的:
本發明的一個方面提供了一種基于密度聚類的非均衡數據集的均衡化方法,包括:獲取非均衡數據集,確定少數類樣本點的數據集和多數類樣本點的數據集;對少數類樣本的數據集進行密度聚類,根據少數類樣本點的聚類情況,對少數類樣本進行合成樣本點的操作,得到處理后的少數類樣本點;對多數類樣本的數據集進行密度聚類,根據多數類樣本點的聚類情況,對多數類樣本進行剔除樣本點的操作,得到處理后的多數類樣本點;根據處理后的少數類樣本點和處理后的多數類樣本點得到非均衡數據集的均衡結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海冰鑒信息科技有限公司,未經上海冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910496790.X/2.html,轉載請聲明來源鉆瓜專利網。





