[發明專利]一種通過改進隨機森林提高類不平衡分類性能的方法在審
| 申請號: | 202010840414.0 | 申請日: | 2020-08-20 |
| 公開(公告)號: | CN111950645A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 周麗雅;王景景;張漢敬;趙揚帆;宮生文;王芳 | 申請(專利權)人: | 青島科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 青島海昊知識產權事務所有限公司 37201 | 代理人: | 劉艷青 |
| 地址: | 266061 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通過 改進 隨機 森林 提高 不平衡 分類 性能 方法 | ||
本發明提供了一種通過改進隨機森林算法提高類不平衡分類性能的方法,該方法包括首先獲取訓練數據集,利用隨機森林算法生成一個隨機森林;然后利用每個樣本數據未參與構建的樹集合對該樣本數據進行分類預測,得到預測值和投票比;選取所有本為正類卻被預測為負類的樣本數據,依次將其投票比作為新的投票邊界進行再次分類預測,并計算G?mean值;選取最大G?mean值對應的投票比,作為最優投票邊界值;最后利用該最優投票邊界值和隨機森林對新數據進行分類。本發明通過對傳統的隨機森林算法進行改進,充分挖掘訓練數據集的信息,自動獲取最優投票邊界,無需人工設定參數;本發明能夠有效提高類不平衡分類性能和少數類樣本分類準確度。
技術領域
本發明涉及一種改進隨機森林算法提高類不平衡分類準確性的方法,屬于數據分析、挖掘和機器學習技術領域。
背景技術
類不平衡分類問題是數據挖掘和機器學習領域中一個非常重要的組成部分。所謂類不平衡分類問題是指由于訓練分類器的數據集具有類別分布不平衡的特點,屬于不同類別的訓練樣本數量差別比較大,從而導致傳統的分類算法失效的問題。在類不平衡問題中,人們通常將包含樣本數較多的類別稱為多數類或負類,而把包含樣本數較少的類別稱為少數類或正類。針對類不平衡分類問題的研究具有廣泛的實際應用價值,特別值得關注的是,在許多類不平衡分類的實際問題中,人們非常期待分類算法能準確地預測出少數類樣本的類別。
然而,傳統的分類算法在解決類別不平衡分類問題時效果不佳,特別是對少數類樣本的分類預測精度比較低。原因是傳統分類算法是基于樣本類別分布均衡的假設,算法的目標是使總體的訓練誤差最小化,并不會特別關注少數類樣本的分類準確度。比如訓練集中有99個多數類樣本,1個少數類樣本,則分類算法只需要將所有的訓練樣本都預測為多數類,即可達到99%的高準確率。但是這樣的分類器對于大部分類不平衡分類問題是沒有價值的,因為它不能正確預測出任何少數類樣本的類別。
目前用于解決類不平衡問題的技術主要分為以下幾類:
(1)重采樣技術:通過對訓練樣本集的重新采樣,增加少數類樣本或者減少多數類樣本,來平衡訓練集樣本類別的分布,減輕分類算法在預測時對多數類的偏向。隨機過采樣ROS和隨機欠采樣RUS是最為簡單常用的兩種重采樣技術。ROS由于增加了重復的少數類樣本,增大了分類算法的開銷和過擬合的風險;RUS隨機減少了多數類的樣本,可能導致關鍵分類信息的丟失,導致分類算法性能下降。
(2)代價敏感技術:它的主要思想是通過定義代價矩陣為不同的誤分類情況分配不同的代價,特別是少數類樣本被誤分為多數類時所付出的代價要遠遠高于多數類樣本的被誤分。使用代價敏感學習技術解決類不平衡學習問題的難度在于代價矩陣的定義,現實問題中代價矩陣往往不可知,需要用戶憑經驗設定。
(3)決策閾值移動技術:其主要思想是對決策閾值做適當的補償,將決策平面向多數類區域靠近,使得盡可能多的少數類樣本被預測正確。目前提出了基于BP神經網絡、支持向量機、決策樹、置信度等技術的決策閾值移動方法。但上述方法的缺點在于決策閾值需要人通過經驗設定,算法本身不能自適應地確定最優的決策閾值。
綜上,現有分類方法無法有效解決類不平衡分類時性能不佳、且少數類樣本分類準確度低的問題;且無法自動實施,需要用戶憑經驗設定參數。
發明內容
本發明的目的是提供一種通過改進隨機森林算法提高類不平衡分類性能的方法,以彌補現有技術的不足。
本發明將對傳統的隨機森林算法進行改進,通過充分利用訓練集的樣本信息,自動確定隨機森林的最優決策閾值。下文中將傳統的隨機森林算法簡稱為RF算法,將本發明提出的優化算法簡稱為RF-ODT算法。
為達到上述目的,本發明采取的具體技術方案為:
一種通過改進隨機森林算法提高類不平衡分類性能的方法,該方法包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島科技大學,未經青島科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010840414.0/2.html,轉載請聲明來源鉆瓜專利網。





