[發(fā)明專利]一種基于聚類和邊界點的不平衡數(shù)據(jù)處理方法在審
| 申請?zhí)枺?/td> | 202011463010.0 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112633337A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計)人: | 姜誠;楊海波;張爽 | 申請(專利權(quán))人: | 哈爾濱理工大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍江省哈*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 邊界 不平衡 數(shù)據(jù)處理 方法 | ||
1.一種基于聚類和邊界點的不平衡數(shù)據(jù)處理方法,該方法包括以下步驟:
(1)設(shè)原始不平衡數(shù)據(jù)集中少數(shù)樣本數(shù)目為D多數(shù)樣本數(shù)目為N,根據(jù)少數(shù)類和多數(shù)類樣本數(shù)目,計算不平衡數(shù)據(jù)需要新生成的少數(shù)類樣本總數(shù)Q;
(2)利用DBSCAN聚類方法對少數(shù)類樣本進行聚類,找出聚類簇中少數(shù)較少的點,以此作為樣本噪聲點刪除,形成G個類;
(3)對于任意少數(shù)類樣本mi,基于KNN方法找到最近鄰的K個樣本,計算少數(shù)類樣本到K個樣本的距離和D1,相加求K近鄰距離平均值di,以距離di為半徑,統(tǒng)計半徑區(qū)域少數(shù)類樣本中多數(shù)類個數(shù),相加并進行歸一化處理,得到每個邊界區(qū)域少數(shù)類樣本的權(quán)重wi1,少數(shù)類樣本mi的權(quán)重wi1之和為1;以每個簇為中心,計算每個聚類中心xi到聚類簇中所有樣本的距離D,然后得到與樣本個數(shù)的比值,得到平均距離D2,求和相加所有平均距離得到Z,進行歸一化處理,并將每個距離D2的倒數(shù)與距離Z的倒數(shù)求比值,得到每個聚類簇權(quán)重wi2,每個聚類簇的權(quán)重wi2之和為1;
(4)對于邊界區(qū)域樣本和每個聚類簇心,利用SMOTE合成算法得到新生成的少數(shù)類樣本,將新生成的少數(shù)類樣本點加入到原有的不平衡訓(xùn)練集中;
(5)對新生成的平衡訓(xùn)練集運用隨機森林分類算法對本發(fā)明提出的采樣方法進行測試和評價,并與SMOTE、K-SMOTE和不使用的經(jīng)典SVM等過采樣方法進行對比。
2.根據(jù)權(quán)利要求所述的一種基于聚類和邊界點的不平衡數(shù)據(jù)處理方法,其特征在于,步驟(1)中需要新生成的少數(shù)類樣本Q=I*(N-D),其中I是要合成的不平衡比,本發(fā)明取值為1。
3.根據(jù)權(quán)利要求所述的一種基于聚類和邊界點的不平衡數(shù)據(jù)處理方法,其特征在于,步驟(2)中輸入少數(shù)類樣本數(shù)據(jù)集D,給定點在鄰域內(nèi)成為核心對象的最小鄰域點數(shù):MinPts,鄰域半徑:Eps;聚類后將簇類中數(shù)目個數(shù)少于兩個樣本的簇刪除;最后得到去除噪聲點的少數(shù)類樣本M,樣本形成n個類簇(C1,C2,……,CG)。
4.根據(jù)權(quán)利要求所述的一種基于聚類和邊界點的不平衡數(shù)據(jù)處理方法,其特征在于,步驟(3)中K近鄰距離平均值di:
得到每個少數(shù)類樣本mi權(quán)重miw計算:
樣本的距離和D的計算公式為:
每個聚類簇的權(quán)重wi2:
用上述計算方法得到每個聚類簇的采樣權(quán)重。
5.根據(jù)權(quán)利要求所述的一種基于聚類和邊界點的不平衡數(shù)據(jù)處理方法,其特征在于,步驟(4)中對于邊界區(qū)域樣本和每個聚類簇,分別合成數(shù)目為0.7Q和0.3Q;SMOTE合成算法是在xi的k個少數(shù)類鄰居中隨機選擇N個,并根據(jù)以下公式生成新樣本xd:
xd=xi+rand(0,1)*(yj-xi)
其中,g=1,2,…,N.j=1,…,k.rand(0,1)表示0到1之間的隨機數(shù)。
6.根據(jù)權(quán)利要求所述的一種基于聚類和邊界點的不平衡數(shù)據(jù)處理方法,其特征在于,步驟(5)中生成的平衡訓(xùn)練集和原始數(shù)據(jù)集合并Q,運用隨機森林分類算法,為了更好的評價各種方法的性能,本發(fā)明采用五折交叉檢驗法在6組數(shù)據(jù)集上實驗,每次選擇其中4組作為訓(xùn)練集,1組作為測試集,同時用F-value和G-mean和ROC曲線作為評價指標(biāo)進行對比。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱理工大學(xué),未經(jīng)哈爾濱理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011463010.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





