[發明專利]類腦分層記憶機制啟發的異常數據流在線校準系統有效
| 申請號: | 201910899740.6 | 申請日: | 2019-09-23 |
| 公開(公告)號: | CN110659274B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 郝礦榮;王偉凱;陳磊;唐雪嵩;蔡欣;王彤 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2455;G06F16/2458;G06F16/23;G06F16/22 |
| 代理公司: | 上海統攝知識產權代理事務所(普通合伙) 31303 | 代理人: | 杜亞 |
| 地址: | 201620 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分層 記憶 機制 啟發 異常 數據流 在線 校準 系統 | ||
本發明涉及一種類腦分層記憶機制啟發的異常數據流在線校準系統,包括缺失數據填補模塊(Ⅰ)、維度約簡模塊(Ⅱ)、多維計數布隆過濾器模塊(Ⅲ)、分層記憶庫模塊(Ⅳ)、經驗知識庫模塊(Ⅴ)和校準后的數據塊模塊(Ⅵ);Ⅰ用于填補數據流批處理環節數據塊中缺失的數據;Ⅱ用于將數據塊中的高維數據進行低維表示;Ⅲ用于判斷新數據樣本是否異常;Ⅳ用于存儲Ⅱ處理后的歷史數據樣本;Ⅴ用于存儲經Ⅰ處理但未經Ⅱ處理的歷史數據樣本;Ⅲ和Ⅳ相互配合可進行替換,Ⅳ和Ⅴ相互配合可進行更新;Ⅵ用于存儲替換和更新后的新數據樣本。本發明的在線校準系統,在不改變數據原始分布的情況下,實時修正離群點、噪聲、缺失值以及自適應概念漂移現象。
技術領域
本發明屬于大數據技術領域,涉及一種類腦分層記憶機制啟發的異常數據流在線校準系統。
背景技術
由于外部環境干擾、物理設施老化、網絡傳輸丟包等因素的存在,實時采集的數據或多或少存在著異常值,如噪聲、離群點、缺失等。數據校準是數據挖掘和知識發現過程中的首要環節,也是保證有價值信息得以獲取的關鍵。有報告指出一個項目用在數據校準上的時間往往占據總體項目時間的50%以上,傳統意義上的數據清洗方法主要是針對于靜態的、離線的、非數據流下的數據樣本集進行,如:
(1)噪聲平滑:主要有基于模型的方法和基于數據驅動的方法。基于模型的方法一般應用于具有先驗知識的場景,如針對線性動態系統的卡爾曼濾波(Kalman Filter)、針對非線性系統的擴展卡爾曼濾波、粒子濾波等;而在缺乏先驗知識的情況下,基于數據驅動的自適應濾波方法更為適用,如最小均方濾波、Wiener濾波、有限脈沖反應濾波和無限脈沖反應濾波等;
(2)離群點處理問題:廣泛采用機器學習方法處理離群點,如K-means聚類、分層聚類分析等無監督學習的方法;而在有監督學習方面,基于密度的分類方法、支持向量機、PCA維度約簡、神經網絡是當前廣泛采用的方法;
(3)數值缺失問題:主要有刪除、替換和填補等處理方法,替換主要包含均值替換、Hot-deck替換、回歸替換以及插值替換等,填補主要有最大似然估計、期望最大化等方法。
上述方法主要針對單個異常問題進行離線處理,無法直接應用到實時數據流環境下,主要是因為數據流具有一些獨有的特性,如:預測必須在線完成、在不存儲數據的情況下持續學習、以無監督方式運行以及自適應概念漂移等。
數據校準是數據挖掘的上游處理過程,當前針對實時數據流的研究主要聚焦在知識發現、模式學習等領域,而缺少對數據流實時校準的研究。
因此,研究一種對異常數據流進行實時校準的方法具有十分重要的意義。
發明內容
本發明的目的是解決現有技術中不存在數據流在線校準系統的問題,提供一種類腦分層記憶機制啟發的異常數據流在線校準系統。
為達到上述目的,本發明采用的方案如下:
類腦分層記憶機制啟發的異常數據流在線校準系統,其特征是:包括順序相連的缺失數據填補模塊、維度約簡模塊、多維計數布隆過濾器模塊、分層記憶庫模塊、經驗知識庫模塊和校準后的數據塊模塊;
缺失數據填補模塊用于填補數據流批處理環節數據塊中缺失的數據,缺失數據填補是數據校準過程的初始環節,是保證算法持續運行的關鍵;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910899740.6/2.html,轉載請聲明來源鉆瓜專利網。





