[發明專利]一種時間序列異常檢測方法在審
| 申請號: | 201910310336.0 | 申請日: | 2019-04-17 |
| 公開(公告)號: | CN110442600A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 焦學偉;高陽 | 申請(專利權)人: | 江蘇網譜數據服務有限公司;江蘇萬維艾斯網絡智能產業創新中心有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455 |
| 代理公司: | 南京泰普專利代理事務所(普通合伙) 32360 | 代理人: | 竇賢宇 |
| 地址: | 210000 江蘇省南京市江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 安全區間 建模 時間序列 異常檢測 實時性 數據預處理 注意力機制 工程預測 記憶網絡 離線數據 歷史數據 時序數據 預測模型 中心偏離 閾值設定 測試集 長序列 歸一化 訓練集 異常點 有效地 預測 準確率 變體 算法 聚合 分組 孤立 森林 | ||
本發明公開了一種時間序列異常檢測方法。內容如下:基于注意力機制的長短期記憶網絡(LSTM)的變體GRU來對時序數據進行建模,可以實現長序列預測以減輕工程預測壓力解決實時性問題;采用孤立森林(iForest)對歷史數據(不同周期同時刻)進行建模,將iForest非異常點的中心偏離程度作為安全區間的閾值設定標準。算法包括如下步驟:數據預處理,將離線數據集劃分為訓練集和測試集,并按周期進行分組聚合,歸一化;利用Attention?GRU進行建模,建立預測模型,采用iForest建立安全區間。本發明能夠有效地解決實時性預測問題和安全區間的設置的問題,使得準確率和召回率得到有效提高。
技術領域
本發明涉及一種基于Attention-GRU和iForest的周期性時間序列異常檢測算法。
背景技術
傳統的異常檢測方法如高斯異常檢測,支持向量機等,并不考慮時間因素,因此不適用于時間序列的異常檢測.后續研究在傳統的異常檢測方法上引入滑動窗口技術。如Etsy公司開發的skyline系統,將最近的一段數據作為研究對象,同時用多種方法分析序列的統計特性,然后以投票的方式為數據異常評分,然而此方法依然無法有效地發掘時間序列的內部規律,特別是無法識別數據周期性規律。也有研究者利用小波分析的方法分析時間序列在頻率域上的信息,從而判斷序列是否異常,但是這類方法計算量通常較大,以至于不能進行實時預測。還有文獻指出利用歷史數據建立時間序列的預測模型,通過比較預測數據和實際數據的差異,以判斷是否出現異常。該方法是解決時間序列異常檢測問題的常見方法,將異常檢測問題轉化為預測問題,這樣能夠兼顧時間序列的兩個特性。.新興的長短期記憶(Long Short Term Memory,LSTM)模型是一種專門處理時間序列的神經網絡模型,能夠較好的捕捉數據在時間維度上的關聯,但是需要進行大量數據進行離線訓練,使得該算法不具備實時性。
對于安全區間的設定,目前大多數采用的是基于假設檢驗的方法,假設數據來自某一正態分布,利用依達拉準則判別。此類方法忽視了數據上本質的分布情況,對判斷結果有較大影響。
發明內容
本發明針對上述現有技術存在的問題和不足,本發明的目的是提供一種基于Attention-GRU和iForest的周期性時間序列異常檢測算法,實現長序列預測以解決實時預測的要求,并利用iForest構建安全區間,避免了使用假設檢驗的缺陷,使得準確率和召回率得到有效提高。
技術方案:為實現上述發明目的,本發明采用的技術方案包括如下步驟:
步驟1)數據預處理;
步驟2)將數據集劃分為訓練集和測試集;
步驟3)利用Attention-GRU在訓練集上對數據進行建模;該模型使用到了編碼和解碼器模型,實現序列對序列的預測,并在編碼過程中引入了注意力機制,使得長序列預測得到保障。
步驟4)利用iForest在訓練集上進行建模;iForest屬于Non-parametric和unsupervised的方法,即不用定義數學模型也不需要有標記的訓練。對于如何查找哪些點是否容易被孤立(isolated),iForest使用了一套非常高效的策略。假設我們用一個隨機超平面來切割(split)數據空間(data space), 切一次可以生成兩個子空間。之后我們再繼續用一個隨機超平面來切割每個子空間,循環下去,直到每子空間里面只有一個數據點為止。直觀上來講,我們可以發現那些密度很高的簇是可以被切很多次才會停止切割,但是那些密度很低的點很容易很早的就停到一個子空間了。上圖里面黑色的點就很容易被切幾次就停到一個子空間,而白色點聚集的地方可以切很多次才停止。針對于本任務的一維數據,只需要在固定維度上切割,將密度低的切割邊界與中心的偏離距離作為安全區間閾值,安全區間則等于預測值±最大最小偏離距離。
步驟5)將二者結合,對新樣本點進行測試,如果超出安全區間則認為是異常。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇網譜數據服務有限公司;江蘇萬維艾斯網絡智能產業創新中心有限公司,未經江蘇網譜數據服務有限公司;江蘇萬維艾斯網絡智能產業創新中心有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910310336.0/2.html,轉載請聲明來源鉆瓜專利網。





