[發明專利]基于G-mean動態加權的不平衡概念漂移數據流分類方法在審
| 申請號: | 202011552340.7 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112685508A | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 李光輝;梁斌 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06K9/62 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 林娟 |
| 地址: | 214000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 mean 動態 加權 不平衡 概念 漂移 數據流 分類 方法 | ||
本發明公開了一種基于G?mean動態加權的不平衡概念漂移數據流分類方法,屬于數據流分類領域。所述方法通過在線加權機制,在每到達一個新實例而不是一個完整的數據塊時,所有基分類器的權重更新一次且不受類分布的影響,更新基分類器時既考慮該分類器創建的時間,又考慮它在最近p個數據上的G?mean性能,G?mean性能對數據的類分布不敏感,可以平衡多類和少類的重要性,使得本申請方法提高了對于少數類的分類準確率,同時,TPR和TNP通過時間衰減因子增量計算,無需保存任何歷史數據;同時使用兩種淘汰機制控制集成模型的規模,保持決策的高效性和準確性。
技術領域
本發明涉及基于G-mean動態加權的不平衡概念漂移數據流分類方法,屬于數據流分類領域。
背景技術
在大數據時代,信息的爆炸性增長導致數據流廣泛出現在各個領域中,如無線傳感器數據流,銀行交易數據流等。如何實現對于數據流的準確分類是一個必然要解決的問題;和對于傳統靜態數據的分類相比,對于數據流的分類存在以下問題:
一方面,數據流中數據的潛在分布或目標概念隨著時間推移發生變化,這種現象通常被稱為概念漂移。概念漂移會導致在過去數據上訓練的分類模型的性能顯著下降,分類準確率大大降低。
另一方面,當數據流中的類分布不平衡時,即某一類的實例數量顯著多于其他類,數據流分類會變得更加困難,因為少類實例出現頻率過低,導致分類模型對它們學習不充分。然而現有的數據流方法大多假設各類實例的數量大致相當,然而這一基本假設在數據流環境中往往并不成立。例如,在信用卡的欺詐辨識和網絡入侵檢測索等眾多應用領域中,大多數數據都是正常數據,只有極少數為欺詐信息和入侵數據報,然而用戶往往更關注系統在少數類實例上的處理情況。
因此,當前對于數據流的分類方法中,往往只對多類實例具有很好的分類準確率,從而保證整個系統具有很高的分類準確率,而整體高性能往往掩蓋了系統對少數類處理不力的問題。如何在保持系統整體高性能的同時,提高系統對少數類的分類準確率是一個具有廣泛實際應用價值的問題。
發明內容
為了解決目前對于數據流分類時存在的概念漂移問題以及對于少數類的分類準確率不高的問題,針對二分類數據流,本發明在基于數據塊集成方法上引入了在線更新機制,提出了一種基于G-mean加權的在線不平衡數據流分類方法OGUEIL,以集成框架為基礎,每到達一個新實例,增量更新每個基分類器及其權重,并對少類實例隨機過采樣,無須保存歷史數據,并周期性添加新的候選分類器。
一種基于G-mean動態加權的不平衡概念漂移數據流分類方法,所述方法包括:
S1:初始化當前集成模型和自適應滑動窗口為空;所述當前集成模型由基分類器組成;
S2:當前數據流中,每到達一個新實例xt,使用當前集成模型預測其分類結果;
S3:增量計算當前數據流中正類和負類實例的數量,確定少類和多類實例;
S4:更新當前集成模型中每個分類器及其權重;
S5:周期性地根據當前滑動窗口中數據訓練一個新的候選分類器,添加到當前集成模型中得到新的集成模型。
可選的,所述S2:當前數據流中,每到達一個新實例xt,使用當前集成模型預測其分類結果,包括:
根據加權多數投票原則對每個輸入實例預測,在t時刻,當前集成模型根據每個基分類器Ci的權重wi和預測結果Ci(xt)對實例xt預測,結果為i=1,2,…,m,如式(1)所示:
其中i=1,2,…,m,m為預先設定的集成模型包含基分類器的最大個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011552340.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:榨油機
- 下一篇:一種低溫共晶熔鹽制備片狀單顆粒三元正極材料的方法





