[發明專利]一種基于改進SMOTE算法的非平衡數據集處理方法及系統有效
| 申請號: | 201911258231.1 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN111782904B | 公開(公告)日: | 2023-10-27 |
| 發明(設計)人: | 李剛;李野;楊光;董得龍;孔祥玉;宗淑敏;孫虹;盧靜雅;劉浩宇;翟術然;張兆杰;許迪;趙紫敬;喬亞男;呂偉嘉;顧強;何澤昊;季浩;白濤 | 申請(專利權)人: | 國網天津市電力公司電力科學研究院;國網天津市電力公司;國家電網有限公司;天津大學 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06Q50/06 |
| 代理公司: | 天津盛理知識產權代理有限公司 12209 | 代理人: | 王來佳 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 smote 算法 平衡 數據 處理 方法 系統 | ||
本發明涉及一種基于改進SMOTE算法的非平衡數據集處理方法,其特征在于:首先計算少數類樣本的重心點,其次構建一個少數類小區域的重心點,然后將少數類樣本與集合M的每個樣本分別進行隨機線性插值,合成新的少數類樣本并添加到數據集中;最后判斷新數據集的非平衡率,若還是過小則重復以上步驟否則停止。改進后的SMOTE算法可以克服傳統SMOTE算法處理噪聲和邊緣性樣本的問題,相比于隨機森林處理在處理非平衡數據集時的分類效果有顯著的提高。
技術領域
本發明屬于電力數據處理領域,涉及一種非平衡數據集處理方法,特別是一種基于改進SMOTE算法的非平衡數據集處理方法。
背景技術
近年來,隨著信息產業的快速發展,人們積累的數據越來越多。激增的數據背后隱藏著許多重要的信息,如何對其進行更高層次的分析,以便更好地利用這些數據,變得越來越重要。傳統的數據管理方法可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中潛在的、有用的關系和規則。為了挖掘數據背后隱藏的知識,解決“數據爆炸但知識貧乏”問題,人們努力尋求各種新方法和技術,以便使數據能夠轉化成有用的信息和知識。數據挖掘在這種背景下應運而生了。
數據挖掘領域的研究日趨成熟,其中許多研究把方法和模型建立在理想的數據而不是現實的數據集上。但現實中的數據是錯綜復雜的,總體而言,他們不可避免的存在冗余數據、缺失數據、不確定數據和不一致數據等諸多情況,這樣的數據簡稱為“臟數據”,它們成為數據挖掘的一大障礙。要在基于歷史的、現存的數據基礎上去為將來的企業發展作決策或預測時,數據的質量問題就變得很關鍵。根據“垃圾進,垃圾出”原理,錯誤的數據會導致昂貴的操作費用和漫長的響應時間,影響從數據集中抽取的模式的正確性和導出規則的準確性,使得決策支持系統產生錯誤的分析結果,將會誤導決策,影響信息服務的質量。因此,在從數據庫中挖掘知識之前必須對其進行一系列的預處理工作。
對數據集進行改造方法的實現則是對數據集進行增減。它的基本思想是增加或者減少不平衡數據集樣本的個數,從而改變數據集的分布來消除或減小數據的不平衡。主要有欠采樣技術和過采樣技術。
欠采樣技術將多數類樣本進行適當刪減,從而使數據集趨于平衡。常用的方法是隨機欠采樣技術,它通過隨機選取的方式,將部分多數類樣本刪除從而減小其規模,其存在的缺點是伴隨著多數類樣本的刪除其攜帶的某些重要信息也會隨之丟失,從而造成分類器分類性能的下降。
過采樣技術則與欠采樣技術相對,該方法通過增加少數類樣本數量最終達到改善非平衡數據集的目的。最簡單的一種方法是隨機過采樣。它通過隨機選擇的方式,將部分少數類樣本復制添加到原始數據集中從而提高少數類樣本的比例;這種方法的缺點是添加的少數類樣本與原始數據集的部分樣本重合,可能導致過擬合現象的發生。
采用SMOTE算法進行不平衡數據集的處理,SMOTE算法在近鄰數k的選擇上沒有可依據的標準,具有一定的盲目性。在SMOTE算法中,對近鄰k的值沒有太大限制,但當數據集中存在噪聲時,合適的k值有可能不會使得某些新樣本也成為噪聲。
發明內容
本發明的目的在于克服現有技術的不足,提供一種基于改進SMOTE算法的非平衡數據集處理方法。
本發明解決其技術問題是采取以下技術方案實現的:
一種基于改進SMOTE算法的非平衡數據集處理方法,包括如下步驟:
步驟一,首先使用聚類算法將樣本集劃分為特定數目的類簇,根據需要合成樣本的數目,以及各類簇中所包含樣本數量,得出各類簇所占權重以及需要合成的樣本數目;通過輪盤賭的方式進行樣本的選擇,記為集合X;計算少數類樣本的重心點;若設定向上采樣倍率為m,則從集合X中隨機抽取m個樣本,近鄰數km記為集合M,構建一個少數類小區域的重心點,記為Xc;
步驟二,將少數類樣本與集合M的每個樣本分別進行隨機線性插值,合成新的少數類樣本并添加到數據集中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網天津市電力公司電力科學研究院;國網天津市電力公司;國家電網有限公司;天津大學,未經國網天津市電力公司電力科學研究院;國網天津市電力公司;國家電網有限公司;天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911258231.1/2.html,轉載請聲明來源鉆瓜專利網。





