[發(fā)明專利]一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911258231.1 | 申請日: | 2019-12-10 |
| 公開(公告)號(hào): | CN111782904B | 公開(公告)日: | 2023-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 李剛;李野;楊光;董得龍;孔祥玉;宗淑敏;孫虹;盧靜雅;劉浩宇;翟術(shù)然;張兆杰;許迪;趙紫敬;喬亞男;呂偉嘉;顧強(qiáng);何澤昊;季浩;白濤 | 申請(專利權(quán))人: | 國網(wǎng)天津市電力公司電力科學(xué)研究院;國網(wǎng)天津市電力公司;國家電網(wǎng)有限公司;天津大學(xué) |
| 主分類號(hào): | G06F16/906 | 分類號(hào): | G06F16/906;G06Q50/06 |
| 代理公司: | 天津盛理知識(shí)產(chǎn)權(quán)代理有限公司 12209 | 代理人: | 王來佳 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 改進(jìn) smote 算法 平衡 數(shù)據(jù) 處理 方法 系統(tǒng) | ||
1.一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法,其特征在于:包括如下步驟:
步驟一,首先使用聚類算法將樣本集劃分為特定數(shù)目的類簇,根據(jù)需要合成樣本的數(shù)目,以及各類簇中所包含樣本數(shù)量,得出各類簇所占權(quán)重以及需要合成的樣本數(shù)目;
步驟二,通過輪盤賭的方式進(jìn)行樣本的選擇,記為少數(shù)類樣本集合X:X={x1,x2,...,xn};
步驟三,計(jì)算步驟二得出的少數(shù)類樣本集合X的重心點(diǎn);
步驟四,對于少數(shù)類樣本集合X中的每一個(gè)樣本x1,x2,...xn,以歐式距離為標(biāo)準(zhǔn)計(jì)算其到少數(shù)類樣本集中所有樣本的距離得到其k近鄰,設(shè)定向上采樣倍率為m,從集合X中隨機(jī)抽取m組樣本近鄰數(shù)km記為集合構(gòu)建一個(gè)少數(shù)類小區(qū)域的重心點(diǎn),記為Xc;
步驟五,根據(jù)公式pi=Xi+rand(0,1)*(Xc-Xi)合成新的少數(shù)類樣本pi,
將集合M中的樣本與新合成樣本pi分別進(jìn)行隨機(jī)線性插值,并判斷少數(shù)類樣本的個(gè)數(shù)是否小于設(shè)定的最低閥值,若不小于,則合成新的少數(shù)類樣本pi并將該少數(shù)類樣本pi添加到數(shù)據(jù)集中,形成新數(shù)據(jù)集;若小于,則回到步驟四;
步驟六,判斷新數(shù)據(jù)集的非平衡率是否小于目標(biāo)值,若小于則回到步驟四,否則得到最終的數(shù)據(jù)集。
2.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法,其特征在于:所述使用聚類算法將樣本集劃分為特定數(shù)目的類簇的方法,包括如下步驟:
步驟(1):根據(jù)公式計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的密度指標(biāo)
式中ra是一個(gè)正數(shù),定義了該點(diǎn)的鄰域半徑;
步驟(2):根據(jù)公式根據(jù)第k次選出的聚類中心,對每個(gè)數(shù)據(jù)點(diǎn)的密度指標(biāo)進(jìn)行修正
式中rb—一個(gè)正數(shù),定義了一個(gè)密度指標(biāo)函數(shù)減少的領(lǐng)域,選取密度指標(biāo)最高的數(shù)據(jù)點(diǎn)xck+1作為新的聚類中心;
步驟(3):根據(jù)以下判斷條件判斷退出條件否成立
若不成立,則轉(zhuǎn)到步驟(2),式中δ是事先給定的參數(shù),且δ<1。
3.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法,其特征在于:計(jì)算步驟二得出的少數(shù)類樣本集的重心點(diǎn)的方法為:
采用向量和歐氏距離的計(jì)算方式得到少數(shù)類樣本的重心點(diǎn):
根據(jù)公式可以計(jì)算出少數(shù)類樣本的重心點(diǎn)Xg。
4.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法,其特征在于:所述構(gòu)建一個(gè)少數(shù)類小區(qū)域的重心點(diǎn)的方法為:從少數(shù)類樣本集合X中隨機(jī)選取兩個(gè)樣本,分別記為Xr1,Xr2,通過三個(gè)樣本Xg,Xr1,Xr2求取該小區(qū)域的重心點(diǎn)Xc,公式如下:
5.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法,其特征在于:所述合成新的少數(shù)類樣本pi的公式為:
pi=Xi+rand(0,1)*(Xc-Xi) (6)
其中,Xi(i=r1,r2)為步驟二中隨機(jī)選擇的兩個(gè)少數(shù)類樣本;pi(i=r1,r2)為合成的新樣本;rand(0,1)取值同上為(0,1)之間的一個(gè)隨機(jī)數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)天津市電力公司電力科學(xué)研究院;國網(wǎng)天津市電力公司;國家電網(wǎng)有限公司;天津大學(xué),未經(jīng)國網(wǎng)天津市電力公司電力科學(xué)研究院;國網(wǎng)天津市電力公司;國家電網(wǎng)有限公司;天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911258231.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種針對非均衡數(shù)據(jù)分類的改進(jìn)SMOTE再抽樣方法
- 基于EasyEnsemble算法和SMOTE算法的不均衡數(shù)據(jù)分類方法
- 一種基于AdaBoost-SO的VANETs車輛事故風(fēng)險(xiǎn)預(yù)測模型
- 基于SMOTE算法和集成學(xué)習(xí)的惡意流量檢測方法
- 基于K-means改進(jìn)的SMOTE算法
- 一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法及系統(tǒng)
- 基于C-K-SMOTE算法的不平衡數(shù)據(jù)集處理方法
- 一種用于橫向聯(lián)邦學(xué)習(xí)的優(yōu)化方法
- 一種基于決策樹和改進(jìn)SMOTE算法的哮喘病診斷系統(tǒng)
- 一種解決不平衡分類問題的新型過采樣方法及系統(tǒng)





