[發(fā)明專(zhuān)利]基于C-K-SMOTE算法的不平衡數(shù)據(jù)集處理方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911259004.0 | 申請(qǐng)日: | 2019-12-10 |
| 公開(kāi)(公告)號(hào): | CN111062425B | 公開(kāi)(公告)日: | 2022-10-28 |
| 發(fā)明(設(shè)計(jì))人: | 郭朝有;許喆;曹蒙蒙;馬硯堃;姚乾 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)人民解放軍海軍工程大學(xué) |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62 |
| 代理公司: | 西安研創(chuàng)天下知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61239 | 代理人: | 郭璐 |
| 地址: | 430033 湖北*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 smote 算法 不平衡 數(shù)據(jù) 處理 方法 | ||
1.基于C-K-SMOTE算法的不平衡數(shù)據(jù)集處理方法,其特征在于,包括以下步驟:
S1:利用Canopy算法對(duì)不平衡數(shù)據(jù)集的少數(shù)類(lèi)樣本進(jìn)行快速近似聚類(lèi),得到一系列canopy簇;
S2:利用K-means聚類(lèi)算法對(duì)canopy簇再次進(jìn)行聚類(lèi),得到精準(zhǔn)聚類(lèi)簇;
S3:利用SMOTE算法在每一個(gè)精準(zhǔn)聚類(lèi)簇內(nèi)進(jìn)行插值處理,增加少數(shù)類(lèi)樣本數(shù)量使不平衡數(shù)據(jù)集趨向平衡;
步驟S1的具體操作過(guò)程為:
S11:根據(jù)不平衡數(shù)據(jù)集的特征或者通過(guò)多次交叉實(shí)驗(yàn)確定距離閾值T1和T2,其中T1>T2;
S12:在數(shù)據(jù)集中任取一點(diǎn)A,若無(wú)canopy簇存在,則把A點(diǎn)當(dāng)作第一個(gè)canopy簇;若數(shù)據(jù)集中已經(jīng)存在有canopy簇,計(jì)算A點(diǎn)與各個(gè)canopy簇簇心間距離D,則D={D1,D2,…,Dk},其中,k為canopy聚類(lèi)簇的簇?cái)?shù);
S13:比較D與T1和T2的大小,若T2D≤T1,則點(diǎn)A歸入相應(yīng)的canopy簇,并根據(jù)canopy簇中各點(diǎn)幾何平均值重新調(diào)整canopy簇的簇心;若D≤T2,則將點(diǎn)A從數(shù)據(jù)集中剔除;若D>T1,則將生成一個(gè)新的canopy簇,并以點(diǎn)A作為該canopy簇的簇心;
S14:重復(fù)執(zhí)行步驟S12和S13,直至數(shù)據(jù)集為空,聚類(lèi)結(jié)束,得到一系列canopy簇,每個(gè)canopy簇對(duì)應(yīng)一個(gè)簇心;
步驟S2的具體操作過(guò)程為:
S21:選取步驟S1中canopy簇簇心以外的任一數(shù)據(jù),計(jì)算其到k個(gè)簇心的距離,并將它重新劃分至距離最近的簇中;
S22:計(jì)算每個(gè)聚類(lèi)簇中所有數(shù)據(jù)樣本的平均值,將其作為新的聚類(lèi)簇簇心,并計(jì)算目標(biāo)函數(shù)E的值;
所述目標(biāo)函數(shù)E的計(jì)算公式為式中,xi表示數(shù)據(jù)集中第i個(gè)數(shù)據(jù)樣本,ωj表示第j個(gè)聚類(lèi)簇,zj表示第j個(gè)聚類(lèi)簇的簇心;
S23:重復(fù)步驟S21和S22,直至E的值達(dá)到收斂條件,聚類(lèi)結(jié)束,得到k個(gè)精準(zhǔn)聚類(lèi)簇;
所述E值的收斂條件為|E2-E1|<ε,其中,ε取0.001,E1和E2分別代表前后兩次迭代的目標(biāo)函數(shù)值;
步驟S3的具體操作過(guò)程為:
S31:在每個(gè)精準(zhǔn)聚類(lèi)簇內(nèi),以簇心與該精準(zhǔn)聚類(lèi)簇內(nèi)的少數(shù)類(lèi)樣本進(jìn)行隨機(jī)線性插值處理,經(jīng)過(guò)插值后可以得到一個(gè)新的合成樣本;
所述隨機(jī)線性插值采用的隨機(jī)插值公式為Pj=Xi+rand(0,1)×(ut-Xi),式中,Xi為少數(shù)類(lèi)樣本,i=1,2,…n,n為少數(shù)類(lèi)樣本的總數(shù);ut為精準(zhǔn)聚類(lèi)簇簇心,t=1,2,…k;Pj為合成的新數(shù)據(jù),j=1,2,…m,m為新合成數(shù)據(jù)的總數(shù);rand(0,1)表示(0,1)區(qū)間的隨機(jī)數(shù);
S32:將插值得到的新樣本放入不平衡數(shù)據(jù)集中,得到新的不平衡數(shù)據(jù)集,計(jì)算新的數(shù)據(jù)集的平衡度;
S33:若平衡度達(dá)不到要求,在S32得到的新的不平衡數(shù)據(jù)集的基礎(chǔ)上重復(fù)S31和S32的操作,直至平衡度達(dá)到[0.6,1.0]要求。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)人民解放軍海軍工程大學(xué),未經(jīng)中國(guó)人民解放軍海軍工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911259004.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種針對(duì)非均衡數(shù)據(jù)分類(lèi)的改進(jìn)SMOTE再抽樣方法
- 基于EasyEnsemble算法和SMOTE算法的不均衡數(shù)據(jù)分類(lèi)方法
- 一種基于AdaBoost-SO的VANETs車(chē)輛事故風(fēng)險(xiǎn)預(yù)測(cè)模型
- 基于SMOTE算法和集成學(xué)習(xí)的惡意流量檢測(cè)方法
- 基于K-means改進(jìn)的SMOTE算法
- 一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法及系統(tǒng)
- 基于C-K-SMOTE算法的不平衡數(shù)據(jù)集處理方法
- 一種用于橫向聯(lián)邦學(xué)習(xí)的優(yōu)化方法
- 一種基于決策樹(shù)和改進(jìn)SMOTE算法的哮喘病診斷系統(tǒng)
- 一種解決不平衡分類(lèi)問(wèn)題的新型過(guò)采樣方法及系統(tǒng)





