[發(fā)明專利]一種數(shù)據(jù)量分布的平衡方法及數(shù)據(jù)處理方法有效
| 申請?zhí)枺?/td> | 201910241989.8 | 申請日: | 2019-03-27 |
| 公開(公告)號: | CN111652384B | 公開(公告)日: | 2023-08-18 |
| 發(fā)明(設(shè)計)人: | 熊杰成 | 申請(專利權(quán))人: | 上海錸鍶信息技術(shù)有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/24;G06N20/00 |
| 代理公司: | 杭州鈐韜知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33329 | 代理人: | 羅國新;唐靈 |
| 地址: | 201615 上海市松江區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)量 分布 平衡 方法 數(shù)據(jù)處理 | ||
本發(fā)明涉及機器學(xué)習(xí)領(lǐng)域,提出了一種數(shù)據(jù)量分布的平衡方法,包括:提供一原始數(shù)據(jù)量分布的第一不平衡度,建立平衡度處理模型,所述平衡度處理模型給出針對原始數(shù)據(jù)量分布的平衡策略和衡量該平衡策略的第二不平衡度,所述第二平衡度至少小于第一平衡度;給出所述平衡度處理模型中滿足所述第二不平衡度的最大類別數(shù)據(jù)量和最小類別數(shù)據(jù)量,基于所述平衡策略和所述最大類別數(shù)據(jù)量和最小類別數(shù)據(jù)量,對原始數(shù)據(jù)量分布進行平衡處理,得到平衡后的新數(shù)據(jù)量分布。本發(fā)明還提出了一種數(shù)據(jù)處理方法。根據(jù)本發(fā)明可根據(jù)原始數(shù)據(jù)量分布生成一個新的數(shù)據(jù)量分布,該新的分布能夠最大化地保持部分原始分布統(tǒng)計特征的同時滿足指定的不平衡度。
技術(shù)領(lǐng)域
本發(fā)明涉及機器學(xué)習(xí)領(lǐng)域,尤其涉及一種數(shù)據(jù)量分布的平衡方法及數(shù)據(jù)處理方法。
背景技術(shù)
數(shù)據(jù)不平衡在分類任務(wù)中是一個典型存在的問題,其定義可以簡單的描述為:數(shù)據(jù)集中每個類別下的樣本數(shù)量存在著很大的差異。假設(shè)一個數(shù)據(jù)集中的最大類別的數(shù)據(jù)量為Nmax,最小類別的數(shù)據(jù)量為Nmin,那么對該數(shù)據(jù)集的不平衡度量則可定義為:
IR=Nmax/Nmin???(1)
IR的值越大表明數(shù)據(jù)集內(nèi)的類別樣本數(shù)量的分布越不平衡。
數(shù)據(jù)集的不平衡對于分類任務(wù)會造成什么問題呢?對于一般的機器學(xué)習(xí)方法而言,其最基本的一個原理是以降低整體分類精度為目標,將所有樣本同等對待。因此,這將造成分類器在數(shù)量比較多的類別上的分類精度較高,而在數(shù)量少的類別上的分類精度較低。以一個二分類問題為例,假設(shè)正負樣本的不平衡度量IR的值為M,分類器選擇基于BP(Back?Propagation,反向傳播)的神經(jīng)網(wǎng)絡(luò)方法。在訓(xùn)練階段,每一次的反向傳播過程向后傳遞的誤差中,包含正樣本的誤差M份,而負樣本的誤差則有1份。顯然,當M很大的時候,正樣本的誤差則會將負樣本的誤差覆蓋掉,這便導(dǎo)致分類器根本無法學(xué)習(xí)到負樣本的分布,進而降低了對負樣本分類的精度。同時,在測試階段,假設(shè)分類器將測試樣本全部預(yù)測為正,此時的準確率為
P=M/M+1???(2)
顯然,當M越大時,準確率P的值越接近于1,而這樣的測試結(jié)果基本忽略掉了負樣本。
為了解決上述由數(shù)據(jù)不平衡所造成的問題,研究者提出了很多的方案,主要分為兩個方面:
1)一方面是從數(shù)據(jù)本身的角度出發(fā),基于數(shù)據(jù)抽樣,通過不同的策略,讓數(shù)據(jù)量的分布相對更為均衡。這類方法有:隨機采樣、過采樣技術(shù)(synthetic?minorityoversampling?technique)、下采樣技術(shù)(easy?ensemble,balance?cascade)等。簡單描述也就是,如果數(shù)據(jù)量比較小那么就增加一些樣本,反之如果類別下的數(shù)據(jù)量比較大那么就刪除一些樣本。如中國專利申請CN201010530912中,就是利用一定的策略擴充數(shù)據(jù)樣本集中的少數(shù)類來達到數(shù)據(jù)平衡。這與數(shù)據(jù)增廣方法就有了一些交集,增加數(shù)據(jù)可被認為是正增廣,刪除數(shù)據(jù)則可被認為是負增廣。
2)另一方面是從學(xué)習(xí)算法的角度出發(fā),通過考慮不同類別下的錯誤分類樣本的代價的不同而對算法進行優(yōu)化。簡單的可以描述為對數(shù)據(jù)量大的類別的代價進行抑制,對數(shù)據(jù)量小的類別的代價進行增強,進而使得學(xué)習(xí)算法在數(shù)據(jù)集不平衡的情況下也能夠很好的學(xué)習(xí)到數(shù)據(jù)的分布。
然而這些方法依然存在缺點。首先,基于數(shù)據(jù)抽樣的方法著重強調(diào)過采樣或下采樣技術(shù),這類方法的一個前提是需要一個可信的依據(jù),對類別下的樣本進行過采樣或下采樣等后的數(shù)據(jù)量分布進行描述,也就是需要提前合理的確定處理后的數(shù)據(jù)集的數(shù)量的一個分布。然而,如何確定這個合理的分布,仍然缺乏相關(guān)的理論基礎(chǔ)且沒有一個統(tǒng)一的標準。其次,基于錯誤分類樣本代價的方法,需要融合到學(xué)習(xí)算法當中,這在一定程度上增加了訓(xùn)練分類器的時間成本,同時由于耦合度較高而不便與不同的學(xué)習(xí)算法進行結(jié)合。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海錸鍶信息技術(shù)有限公司,未經(jīng)上海錸鍶信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910241989.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





