[發明專利]一種基于改進的SMOTE算法的不平衡數據處理方法在審
| 申請號: | 202010832796.2 | 申請日: | 2020-08-18 |
| 公開(公告)號: | CN111967520A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 王國濤;呂冰澤;孫志剛;梁曉雯;燕會臻 | 申請(專利權)人: | 黑龍江大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 劉強 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 smote 算法 不平衡 數據處理 方法 | ||
一種基于改進的SMOTE算法的不平衡數據處理方法,涉及機器學習技術領域,針對現有不平衡數據集處理方法中由于不能夠避免處理過程中產生噪聲數據樣本,并且可能使新生成的數據樣本分布在原數據集中的少數數據樣本的中心,進而導致分類效果差的問題。本發明使用支持向量機和K?means算法的結合去除數據集中的噪聲數據,通過限制樣本生成范圍的半徑,即將樣本點與近鄰點之間生成數據,擴大到樣本點與近鄰點的連線和延長線上生成數據,提高了數據生成的質量,使分類效果更好。
技術領域
本發明涉及機器學習技術領域,具體為一種基于改進的SMOTE算法的不平衡數據處理方法。
背景技術
許多實際應用領域都存在數據集不平衡的問題,例如異常檢測、醫學診斷或人臉識別等。數據的不平衡會削弱分類算法的判斷能力,因為算法在分類過程中追求的是整體的分類精度。為了解決數據集分類時不平衡的問題,研究人員在數據和算法層面進行改進。數據層面的改進方法是從數據本身出發,通過復制或刪除樣本的方法使數據集中各類別樣本數量達到平衡。而算法層面的改進方法主要是引入其他算法,如代價敏感學習方法。
重采樣技術就是在數據層面來解決數據不平衡問題的方法,主要有多數類樣本欠采樣和少數類樣本過采樣兩種方式,達到刪除或者增加樣本使兩類別樣本集在數量上達到平衡的目的。其中,隨機對多數樣本刪除使兩類別樣本數量趨于平衡的方法為欠采樣;通過復制少數類樣本增加其數目達到與多數類樣本數量相同的方法為過采樣。并由此衍生出一種混合采樣的方式,即將過采樣和欠采樣算法結合使用,最終使兩類樣本數據數量達到平衡。
代價敏感學習是在算法層面對數據不平衡問題的解決方法。代價敏感學習的主要思想是將代價懲罰加到學習過程中去,通常是給少數樣本一個較大的懲罰,使其在學習過程中受到更大的重視。雖然這可以提高少數類分類的準確率,但在實際應用中仍然存在一些問題。首先,在實際應用中,需要給每個類別設定的錯分代價應該是不同的,這需要一定的先驗知識,才能保證每個類別設定的權值能夠很好的代表本類別的錯分代價。但在現實中,權值的設定并不容易。其次,一些分類器不能直接使用該學習方法,需要通過一些策略間接實現,所以代價敏感學習不具有普遍應用性。
SMOTE算法雖然在一定程度上可以避免過擬合問題,但仍存在以下缺點:一是樣本中若有偏離點或者噪聲,對這些樣本進行插值時,生成的樣本質量會比較差,而且可能引入新的噪聲,不利于數據分類;二是算法生成的新樣本可能會分布于原始數據分布的邊緣,導致樣本之間分界線不易區分;三是新樣本僅僅在兩個樣本之間生成,樣本生成區域范圍小,容易導致過擬合現象產生。
鑒于SMOTE算法還存在一些弊端,為了使算法能有效處理不平衡數據集,很多科研人員都對SMOTE算法進行了一定程度的改進。經文獻檢索發現,改進的Cluster-SMOTE算法先使用K-means算法對少數類聚類,然后再對少數類使用SMOTE算法。但該方法主要目標是在少數類簇內生成新的樣本,但是并沒有明確如何確定最佳簇數,也沒有指定每個簇內生成多少個樣本。Santos等提出CB-SMOTE算法,使新生成樣本的類別由該樣本和其最近鄰樣本的類別共同決定。Sharma等證明了當只有少數類樣本時,SMOTE算法性能表現不佳,進而提出了一種新的過采樣方法,稱為“通過多數進行采樣(SWIM)”,該方法利用多數類樣本的分布來生成面向分布的少數類樣本。為了避免產生噪聲,相關文獻提出在應用SMOTE算法之前,使用CURE算法清除異常值的數據的名為CURE-SMOTE的方法,這種方法雖然避免了噪聲的產生,但忽略了少數類樣本內部可能的不平衡。董燕杰提出Random-SMOTE算法,由樣本點與其兩個近鄰樣本點構成的三角區域內插值,使樣本生成的范圍擴大,但算法運算過程相對復雜。劉東啟通過復合使用SVM算法,并將不同錯分代價和自適應合成采樣算法結合后,對數據集不平衡問題分隔超平面的平移現象進行了改善。曹正鳳提出了C-SMOTE算法,在正類樣本中心生成新樣本,克服了SMOTE算法在數據生成時隨機化的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江大學,未經黑龍江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010832796.2/2.html,轉載請聲明來源鉆瓜專利網。





