[發(fā)明專利]一種基于分級采樣的不平衡數(shù)據(jù)再平衡處理方法在審
| 申請?zhí)枺?/td> | 202110391951.6 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN113095403A | 公開(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計)人: | 林紹福;常晴晴;劉希亮 | 申請(專利權(quán))人: | 北京工業(yè)大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京思海天達知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分級 采樣 不平衡 數(shù)據(jù) 平衡 處理 方法 | ||
本發(fā)明公開了一種基于分級采樣的不平衡數(shù)據(jù)再平衡處理方法,包括:將多數(shù)類樣本點根據(jù)分類難度分成不同的分類難度等級,并設(shè)置等級權(quán)重,根據(jù)等級權(quán)重進行下采樣,將下采樣得到的樣本作為多數(shù)類樣本的代表與少數(shù)類樣本合并成新的數(shù)據(jù)集。通過在多個公開的不平衡數(shù)據(jù)集上的實驗結(jié)果表明,與其他不平衡數(shù)據(jù)集處理方法相比,該方法更具優(yōu)越性,顯著提升了模型識別的F1值。
技術(shù)領(lǐng)域
本發(fā)明涉及機器學習與數(shù)據(jù)挖掘、人工智能領(lǐng)域,是一種基于分級采樣的不平衡數(shù)據(jù)再平衡處理方法,可應用于機器學習與數(shù)據(jù)挖掘領(lǐng)域。
背景技術(shù)
不平衡數(shù)據(jù)是指不同類別數(shù)據(jù)的樣本數(shù)量不等且差別比較大。在日常的機器學習研究中經(jīng)常會遇到不平衡數(shù)據(jù)集比如詐騙電話識別、欺詐點擊、信用還款預測、心臟病預測等。不平衡數(shù)據(jù)再平衡處理是機器學習和模型構(gòu)建過程中至關(guān)重要的一步,在本發(fā)明中,主要關(guān)注不平衡條件下模型對樣本數(shù)據(jù)的二分類問題。
相關(guān)技術(shù)中,當前大多數(shù)研究者采用各種采樣方法對特定領(lǐng)域數(shù)據(jù)進行采樣再平衡處理,從一定程度上緩解了不平衡數(shù)據(jù)中正負樣本的數(shù)量比,但是這些方法沒有考慮分類邊界附近樣本分布特點。因此,本發(fā)明結(jié)合分類邊界附近樣本特點,提出一種基于分級采樣的不平衡數(shù)據(jù)再平衡處理方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供了一種基于分級采樣的不平衡數(shù)據(jù)再平衡處理方法,旨在更好地區(qū)分在分類邊界容易被誤分的二分類樣本數(shù)據(jù)正負樣本不平衡的問題。將多數(shù)類樣本點根據(jù)分類難度分成不同的分類難度等級,并設(shè)置等級權(quán)重,根據(jù)等級權(quán)重進行下采樣,將下采樣得到的樣本作為多數(shù)類樣本的代表與少數(shù)類樣本合并成新的數(shù)據(jù)集。通過在多個公開的不平衡數(shù)據(jù)集上的實驗結(jié)果表明,與其他不平衡數(shù)據(jù)集處理方法相比,該方法更具優(yōu)越性,顯著提升了模型識別的F1值。
一種基于分級采樣的不平衡數(shù)據(jù)再平衡處理方法,其特征在于,包括如下步驟,
步驟1:把多數(shù)類樣本點根據(jù)分類難度分成不同的分類難度等級;
步驟2:根據(jù)不同的分類難度等級為每個等級設(shè)置等級權(quán)重;
步驟3:根據(jù)等級權(quán)重設(shè)置樣本激活函數(shù);
步驟4:根據(jù)等級難度對每個等級進行下采樣,離分類邊界比較近的或者比較容易被錯分類的樣本會被選出來作為多數(shù)類樣本的代表樣本與少數(shù)類樣本合并成新的數(shù)據(jù)集,得到新的平衡的數(shù)據(jù)集;
步驟5:結(jié)束。
1、根據(jù)樣本數(shù)據(jù)在分類邊界分布不平衡的特點,本發(fā)明提出使用輕量級梯度提升樹(LGBM)作為分類器,并用F1值判斷模型性能。
其中真陽性(TP)表示少數(shù)類樣本點被預測為少數(shù)類樣本點的個數(shù),假陽性是多數(shù)類樣本點被預測為少數(shù)類樣本點的數(shù)量,假陰性是少數(shù)類樣本點被預測為多數(shù)類樣本點的數(shù)量,真陰性是多數(shù)類樣本點被預測為多數(shù)類樣本點的數(shù)量。
準確率(Precision)是指預測為少數(shù)類樣本中,原本就是少數(shù)類樣本的比例,用數(shù)學公式表示如下式(1)所示。
召回率(Recall)是指原本為少數(shù)類樣本中,預測為少數(shù)類樣本的比例,用數(shù)學公式表示如下式(2)所示。
F1是調(diào)和準確率和召回率的一個新的評價指標F-measure簡稱F1,具體數(shù)學公式如下式(3)所示。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學,未經(jīng)北京工業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110391951.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





