[發明專利]一個基于信息熵的數據流自適應集成分類方法在審
| 申請號: | 201611158475.9 | 申請日: | 2016-12-07 |
| 公開(公告)號: | CN108170695A | 公開(公告)日: | 2018-06-15 |
| 發明(設計)人: | 孫艷歌;卲罕;劉宏兵;馮巖;王淑禮;姚建峰 | 申請(專利權)人: | 信陽師范學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 河南省信陽市*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漂移 數據流 集成分類 分類器 信息熵 自適應 重復 傳感器網絡 分類準確率 抗噪聲能力 數據流算法 信用卡欺詐 分類模型 分類效果 模型更新 時間代價 實際問題 實時分類 行為檢測 性能分析 異常檢測 真實數據 數據集 新概念 檢測 放入 電價 天氣預報 消耗 重建 預測 應用 保證 | ||
本發明公開了一個基于信息熵的數據流自適應集成分類方法,不僅能檢測到概念漂移而且能識別重復概念,在該系統中,只有當檢測到有新概念時才重建新的分類器并放入分類器池中,防止重復概念出現導致的重復訓練的問題,減少模型更新頻率,提高模型實時分類能力和分類效果,通過在人工合成數據集和真實數據集上與經典的數據流算法進行性能分析對比,實驗表明該方法不僅能夠應對多種類型概念漂移,提升了分類模型抗噪聲能力,并在保證較高分類準確率前提下,消耗更少的時間代價,該方法可以應用于傳感器網絡異常檢測、信用卡欺詐行為檢測、天氣預報和電價預測等眾多實際問題中。
技術領域
本發明屬于數據挖掘與機器學習技術領域,涉及一種面向概念漂移環境的數據流集成分類方法,尤其提出了一種能夠處理重現的概念的檢測系統。實驗結果表明所提出的方法在平均分類準確率上具有明顯的優勢,比其它集成算法消耗更少的時間,適合多種類型概念漂移的環境和具有較高的抗噪性。該系統可以應用于傳感器網絡異常檢測、信用卡欺詐行為檢測、天氣預報和電價預測等眾多實際應用問題中。
背景技術
在現實世界的眾多實際應用問題中,數據都是以流的形式不斷產生的。這種快速到達的、實時的、連續的和無界的數據序列稱為數據流(Data Streams)。在真實的數據流環境中,數據分布常常會隨著時間而發生改變,這種現象反映數據流其本質可能具有不穩定。例如,天氣預報所依據的規律可能會隨著季節變化而發生改變;顧客網上購物偏好分析方法可能會隨顧客群體的興趣、商家信譽、服務類型等因素的變化而改變;工業用電量會隨著季節交替出現周期性變化。一般地,把這種數據流中的數據分布隨著時間以某種方式發生變化的現象稱為概念漂移(Concept Drift)。具有因此,對于許多實際應用問題都需要我們研究與開發一種特定的面向數據流變化特征的學習機制,來快速的、實時的應對這些問題。
根據改變速度可以把概念漂移方式分為突變式(Abrupt Concept Drift)和漸變式(Gradual Concept Drift)。若在較短的時間內,數據流中數據分布突然地被另一個完全不同的數據分布所取代,則稱此時數據流中發生了突變式概念漂移。此類型的漂移通常在毫無征兆的情況下發生(如傳感器突然發生故障),會使準確率急劇下降甚至模型完全失效。而漸變式概念漂移則是一種慢速率改變(如傳感器逐漸失靈),通常是經過較長一段時間后才能觀察到,且概念漂移發生前后概念之間有或多或少的相似。而在現實環境中,數據流中概念重復出現是普遍存在的。重現式概念漂移(Recurring Concept Drift)是一種特殊類型的概念漂移,除了兼具上述兩種漂移的特點外,某種概念會有規律或無規律的會重復出現,使得分類模型需要不斷的進行重復訓練以適應這種變化。例如一年四季的用電量數據會隨著季節周期變化;社交網絡中某一話題可能在固定的時間(如節日或選舉)周期出現。
概念漂移是數據流挖掘中的挑戰問題,近年來,針對概念漂移問題國內外學者作了大研究,主要分為基于實例選擇,基于實例加權與集成學習三種方法。這些算法大多數只針對某一類型的概念漂移進行處理,并未充分考慮概念會重復出現的情況。對此類型概念漂移,要求模型能夠使用歷史數據,并且當重復概念發生時能夠使用以往訓練過的模型進行分類,從而避免重復訓練。一個理想的分類模型應能增量式的學習并能適應多種類型的變化。因此,設計出能應對多種類的概念漂移的分類算法具有重要的研究意義。集成方法通過在不同時段數據來訓練個體分類器來保留歷史概念,因此是一種有效的處理概念漂移的方法。我們主要關注于如何構建面向數據分布規律隨時間變化的數據流集成分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于信陽師范學院,未經信陽師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611158475.9/2.html,轉載請聲明來源鉆瓜專利網。





