[發(fā)明專利]一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法及系統(tǒng)有效

申請?zhí)枺?/td>	201911258231.1	申請日：	2019-12-10
公開（公告）號(hào)：	CN111782904B	公開（公告）日：	2023-10-27
發(fā)明（設(shè)計(jì)）人：	李剛;李野;楊光;董得龍;孔祥玉;宗淑敏;孫虹;盧靜雅;劉浩宇;翟術(shù)然;張兆杰;許迪;趙紫敬;喬亞男;呂偉嘉;顧強(qiáng);何澤昊;季浩;白濤	申請（專利權(quán)）人：	國網(wǎng)天津市電力公司電力科學(xué)研究院;國網(wǎng)天津市電力公司;國家電網(wǎng)有限公司;天津大學(xué)
主分類號(hào)：	G06F16/906	分類號(hào)：	G06F16/906;G06Q50/06
代理公司：	天津盛理知識(shí)產(chǎn)權(quán)代理有限公司 12209	代理人：	王來佳
地址：	300384 ***	國省代碼：	天津;12
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于改進(jìn) smote 算法平衡數(shù)據(jù) 處理方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法，其特征在于：包括如下步驟：

步驟一，首先使用聚類算法將樣本集劃分為特定數(shù)目的類簇，根據(jù)需要合成樣本的數(shù)目，以及各類簇中所包含樣本數(shù)量，得出各類簇所占權(quán)重以及需要合成的樣本數(shù)目；

步驟二，通過輪盤賭的方式進(jìn)行樣本的選擇，記為少數(shù)類樣本集合X:X＝{x₁,x₂,...,x_n}；

步驟三，計(jì)算步驟二得出的少數(shù)類樣本集合X的重心點(diǎn)；

步驟四，對于少數(shù)類樣本集合X中的每一個(gè)樣本x₁,x₂,...x_n，以歐式距離為標(biāo)準(zhǔn)計(jì)算其到少數(shù)類樣本集中所有樣本的距離得到其k近鄰，設(shè)定向上采樣倍率為m，從集合X中隨機(jī)抽取m組樣本近鄰數(shù)km記為集合構(gòu)建一個(gè)少數(shù)類小區(qū)域的重心點(diǎn)，記為X_c；

步驟五，根據(jù)公式p_i＝X_i+rand(0,1)*(X_c-X_i)合成新的少數(shù)類樣本p_i，

將集合M中的樣本與新合成樣本p_i分別進(jìn)行隨機(jī)線性插值，并判斷少數(shù)類樣本的個(gè)數(shù)是否小于設(shè)定的最低閥值，若不小于，則合成新的少數(shù)類樣本p_i并將該少數(shù)類樣本p_i添加到數(shù)據(jù)集中，形成新數(shù)據(jù)集；若小于，則回到步驟四；

步驟六，判斷新數(shù)據(jù)集的非平衡率是否小于目標(biāo)值，若小于則回到步驟四，否則得到最終的數(shù)據(jù)集。

2.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法，其特征在于：所述使用聚類算法將樣本集劃分為特定數(shù)目的類簇的方法,包括如下步驟：

步驟(1)：根據(jù)公式計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的密度指標(biāo)

式中r_a是一個(gè)正數(shù)，定義了該點(diǎn)的鄰域半徑；

步驟(2)：根據(jù)公式根據(jù)第k次選出的聚類中心，對每個(gè)數(shù)據(jù)點(diǎn)的密度指標(biāo)進(jìn)行修正

式中r_b—一個(gè)正數(shù)，定義了一個(gè)密度指標(biāo)函數(shù)減少的領(lǐng)域，選取密度指標(biāo)最高的數(shù)據(jù)點(diǎn)x_ck+1作為新的聚類中心；

步驟(3)：根據(jù)以下判斷條件判斷退出條件否成立

若不成立，則轉(zhuǎn)到步驟(2)，式中δ是事先給定的參數(shù)，且δ＜1。

3.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法，其特征在于：計(jì)算步驟二得出的少數(shù)類樣本集的重心點(diǎn)的方法為：

采用向量和歐氏距離的計(jì)算方式得到少數(shù)類樣本的重心點(diǎn)：

根據(jù)公式可以計(jì)算出少數(shù)類樣本的重心點(diǎn)X_g。

4.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法，其特征在于：所述構(gòu)建一個(gè)少數(shù)類小區(qū)域的重心點(diǎn)的方法為：從少數(shù)類樣本集合X中隨機(jī)選取兩個(gè)樣本，分別記為X_r1，X_r2，通過三個(gè)樣本X_g，X_r1，X_r2求取該小區(qū)域的重心點(diǎn)X_c，公式如下：

5.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法，其特征在于：所述合成新的少數(shù)類樣本p_i的公式為：

p_i＝X_i+rand(0,1)*(X_c-X_i) (6)

其中，X_i(i＝r₁,r₂)為步驟二中隨機(jī)選擇的兩個(gè)少數(shù)類樣本；p_i(i＝r₁,r₂)為合成的新樣本；rand(0，1)取值同上為(0，1)之間的一個(gè)隨機(jī)數(shù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)天津市電力公司電力科學(xué)研究院;國網(wǎng)天津市電力公司;國家電網(wǎng)有限公司;天津大學(xué)，未經(jīng)國網(wǎng)天津市電力公司電力科學(xué)研究院;國網(wǎng)天津市電力公司;國家電網(wǎng)有限公司;天津大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911258231.1/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】