[發明專利]基于統計學習和深度學習的通信網絡異常分類方法有效
| 申請號: | 202010967322.9 | 申請日: | 2020-09-15 |
| 公開(公告)號: | CN112202736B | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 楊強;郝唯杰;楊濤;阮偉;王文海 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06F17/18;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 統計 學習 深度 通信 網絡 異常 分類 方法 | ||
1.一種基于統計學習和深度學習的通信網絡異常分類方法,其特征在于包括如下步驟:
1)ICS通信網絡的監控主機從ICS通信網絡的工業交換機中實時采集通信流量數據,工業服務器存儲實時采集的通信流量數據;
2)根據ICS通信網絡正常流量數據,設計LSTM深度學習模型結構參數并進行建模,生成離線LSTM深度學習模型并存儲于工業服務器;具體為:
2.1)設計的LSTM深度學習模型的網絡結構由記憶細胞、輸入門、輸出門、遺忘門組成;其前向計算方法可以表示為:
gt(l)=ψ(Wgx(l)ht(l-1)+Wgh(l)ht-1(l)+bg(l))
it(l)=δ(Wix(l)ht(l-1)+Wih(l)ht-1(l)+bi(l))
ft(l)=δ(Wfx(l)ht(l-1)+Wfh(l)ht-1(l)+bf(l))
ot(l)=δ(Wox(l)ht(l-1)+Woh(l)ht-1(l)+bo(l))
st(l)=gt(l)⊙it(l)+st-1(l)⊙ft(l)
ht(l)=ψ(st(l))⊙ot(l)
其中W為權重矩陣,b為權重向量,用于設置在輸入層,記憶層以及輸出層建立連接;st(l)表示記憶細胞在第l層第t步長時的狀態,ht(l)是記憶細胞在第l層第t步長時的輸出狀態;δ是激活函數,ψ是tanh函數;⊙是集合之間的哈達瑪積;i,o,f分別表示輸入門,輸出門以及遺忘門;g是tanh函數的輸入節點;
2.2)基于ICS通信網絡流量時間序列的LSTM深度學習模型函數如下:
其中fLSTM()是LSTM深度學習模型函數,該函數使用大數據量的ICS正常通信流量的訓練序列進行模型適配與訓練,LSTM深度學習模型結構參數集合為Para[],Nfore為LSTM深度學習模型的預測序列長度,Ntrai是預先定義的訓練序列長度;通過上述的模型訓練,生成反映ICS通信網絡流量正常情況的LSTM模型;
3)用多個小周期的SARIMA模型進行在線檢測
分布式運行多個小周期的SARIMA(p,d,q)x(P,D,Q)s統計學習模型,并實時生成通信流量在線閾值區間,同時獲取通信流量超出在線閾值的對應ICS通信網絡流量序列,包括出現該異常的小周期SARIMA模型的訓練集、以及由訓練集得到的在線閾值的上下限和與閾值區間進行比較的在線監測數據集;具體為:
3.1)定義選定的流量聚合尺度以及小周期分析尺度,用SARIMA(p,d,q)x(P,D,Q)s序列的定義法來產生SARIMA(p,d,q)x(P,D,Q)s的時間序列:
SARIMA(p,d,q)x(P,D,Q)s模型是通過對ARMA(p,q)模型分別進行d階差分以及D階季節性差分計算得到的,ARMA(p,q)模型是由AR(p)以及MA(q)模型組合而成;
自回歸滑動平均模型ARMA(p,q)定義如下:
Xt=φ1Xt-1+φ2Xt-2+…+φpXt-p+εt-θ1εt-1-…-θqεt-q
上式:Xt為均值化處理之后的小周期的平穩時間序列,其時間序列的長度較短;φp為自回歸項AR的系數;θq為滑動平均項MA的系數;εt為隨機擾動;p為AR的階數;q為MA的階數;
定義一個延遲算子B,BXt=Xt-1,則AR系數多項式Φ(B)=1-φ1B-…-φp(B)p,MA系數多項式Θ(B)=1-θ1B-…-θq(B)q;
引入差分算子Δd=(1-B)d,則ARIMA(p,d,q)模型表示為:
Φ(B)ΔdXt=Θ(B)εt
SARIMA模型通過對ARIMA模型進行季節性差分運算得到,SARIMA模型的定義如下:
Φp(B)ΦP(Bs)ΔdΔsDXt=Θq(B)ΘQ(Bs)εt
其中εt為白噪聲序列,d為趨勢差分的階數,D為周期s為補償的季節差分階數,Bs為s階延遲算子,ΔsD為季節性差分算子;BsXt=Xt-s,ΔsD=1-Bs,ΦP(Bs)為Bs的Q階多項式,ΦP(Bs)為Bs的P階多項式;
3.2)使用貝葉斯信息準則BIC對SARIMA(p,d,q)x(P,D,Q)s模型的p,d,q,P,D,Q,階數進行監督分析并定階;
3.3)采用最小二乘法對SARIMA(p,d,q)x(P,D,Q)s的p階系數φk(k=1,2,…,p),q階系數θk(k=1,2,…,q),以及季節性P階系數季節性Q階系數進行估計;
3.4)采用最優BIC準則下的SARIMA(p,d,q)x(P,D,Q)s模型對原始序列進行擬合分析,并進行殘差檢驗;若殘差為白噪聲,則對擬合序列進行反濾波處理,得到原序列的擬合值或預測值;若殘差不為白噪聲,則重新采用BIC信息準則對ARMA(p,q)模型進行定階;
3.5)得到小周期的SARIMA(p,d,q)x(P,D,Q)s的數學表達式;
3.6)采集ICS工業交換機上的實時流量數據,根據設定的采樣頻率γsamp、聚合尺度生成時間序列,并以一個小周期為一個迭代周期;
3.7)對采集到的實時流量數據進行訓練,在一個小周期內進行SARIMA(p,d,q)x(P,D,Q)s模型訓練與適配之后,輸出最優的模型以及模型適配的參數;第i個小周期的模型定義為:
其中fSARIMA()為SARIMA(p,d,q)x(P,D,Q)s模型的函數表達式,為第i次迭代的小周期訓練集,Tfore為小周期預測的序列個數,s為周期性參數,'BIC'為計量經濟學選取最優的(p,d,q,P,D,Q)參數的準則,是SARIMA模型第i次迭代預測出的時間序列;
計算第i次迭代的預測均值
3.8)分布式運行小周期的SARIMA(p,d,q)x(P,D,Q)s模型,對實時采集的第i個小周期的ICS流量數據進行實時動態滾動建模,此時的實時流量數據相當于驗證集;將驗證集與預測過程生成的基于置信區間的流量閾值上下限進行對比分析;其定義的第i個小周期的上下界閾值為:
其中是以1-αP.I為顯著性的z分布值,為第i個小周期的動態閾值區間的上界,為動態閾值區間的下界,均為長度為Tfore的時間序列,αP.I為置信度;
第i次迭代的正常ICS通信流量定義為:
其中為第i次小周期實時采集的ICS通信流量,Tfore是采集的樣本量;
第i次小周期的ICS預測序列與訓練序列存在實時的相關性,第i次小周期的預測序列可估計為:
其中函數∩為對兩個時間序列集合取交集;
3.9)流量判定結束之后,繼續下一個小周期的訓練迭代,并重新輸出新的最優模型以及模型適配的參數,對新輸入的實時流量數據進行再次判定;
3.10)循環整個過程,直到達到設定的迭代次數;
4)在線LSTM模型辨識ICS通信網絡背景流量
將出現異常的對應小周期SARIMA模型的訓練集作為已存儲的LSTM深度學習模型的輸入,并在線輸出對應的預測序列;具體為:
假設ICS異常發生的現實對應時間為序列其中n為異常發生的總次數,則異常發生時小周期序列號的樣本數目序列為:
其中tdebug為步驟3)運行之前的實時調試時間,γsamp為ICS流量的采樣頻率,
第n次ICS異常發生在第次小周期迭代計算之中,因此ICS異常事件發生的小周期迭代次數(的元素)可以由以下的方程組追溯計算得到:
其中Kn為中間變量;
步驟3)在線檢測過程所生成的動態ICS流量閾值區間的方差由以下的公式得到:
其中能對第次小周期迭代的閾值整體偏差進行衡量;
基于LSTM深度學習模型的在線ICS正常通信流量預測分析過程如下所示:
其中ModelLSTM()為使用步驟2中離線訓練所得到的LSTM深度學習模型,為在線LSTM模型預測的ICS正常通信流量序列,為在線模型的輸入,Nfore為預測的流量序列長度;通過異常事件發生時所在的在線SARIMA模型小周期序列得到當前小周期的在線SARIMA模型訓練集其中每個訓練小周期的SARIMA訓練集為n為異常事件發生的總數;該訓練集保留了ICS通信網絡出現異常之前的流量模式,同時定義了在線LSTM深度學習模型的輸入,由此得到輸出的n個ICS通信網絡流量異常事件的LSTM在線預測序列其中每個異常事件所對應的序列長度為Nfore;
離線運行的LSTM深度學習模型可作為先驗知識驗證ICS通信網絡的正常背景流量;異常事件發生時所在的第次小周期與在線SARIMA統計學習模型訓練集存在時間意義上的對應性,通過結合在線的LSTM深度學習模型可作為后驗知識對ICS通信網絡異常事件進行分類,在線的LSTM深度學習模型同樣具有低算法復雜度的特征;
LSTM深度學習模型在線的預測序列的方差為:
其中可以反映第k次異常事件的LSTM模型在線預測的波動與偏差,作為分析ICS通信網絡背景流量的關鍵參數;
5)設計異常流量組合分類器,進行數值統計運算對ICS通信網絡異常進行分類;具體為:
5.1)定義實時的時間標簽誤差算法如下:
其中預定義的誤差ε作為限制異常事件時間戳與記錄白名單時間戳偏差的臨界值,為異常事件時間序列的元素,為白名單記錄ICS合法行為操作以及計劃檢修事件時間序列的元素;若異常事件時間戳與記錄白名單時間戳偏差的臨界值在偏差以內,則ICS通信流量異常由ICS合法行為操作以及計劃檢修事件產生;
若表示此時ICS通信流量異常由惡意的行為操作產生;
5.2)通過發生異常事件時小周期的在線SARIMA模型閾值區間上下限,以及LSTM模型預測的ICS通信網絡背景流量,計算對應第次小周期內的閾值上下限均值以及預測背景流量均值,正常情況的ICS通信網絡背景流量滿足如下方程:
其中為的元素;
由LSTM深度學習模型在線的預測序列的方差以及SARIMA在線檢測算法所生成的動態流量閾值區間的方差可以得到正常的ICS通信網絡背景流量方差需要小于SARIMA算法生成的流量動態閾值方差
因此當如下的不等式成立時,可以推斷出ICS通信網絡存在故障或異常;
表示此時ICS通信流量異常是由ICS網絡端異常或者通信數據傳輸故障造成;
5.3)對實時采集分析的ICS通信網絡流量采用Berkeley packet Filter(BPF)濾波算法來區分不同的數據包類型,BPF濾波算法定義為:
其中為BPF濾波算法,為原始流量序列Xt拆分出來的TCP流量序列,同理為原始流量序列Xt拆分出來的UDP流量序列;
定義[Xt]type表示ICS通信網絡流量序列Xt內某type類型包的流量總和,計算ICS網絡數據流量下不同類型數據包的分布偏差
該分布偏差的基線由大數據量的ICS正常通信流量的訓練序列(LSTM深度學習模型的離線訓練集)經過BPF計算得到:
當滿足下式時,ICS通信流量異常事件由ICS通信網絡惡意入侵攻擊造成;其中是type類型的包分布準許誤差;
此時的Atttype=type(type=UDP,TCP,ARP,etc),表示此時ICS通信流量異常是由ICS通信網絡惡意入侵攻擊造成,此時的攻擊類型為type型;
由此檢測到的ICS通信網絡異常事件可以被詳細分為ICS通信網絡惡意行為操作,ICS網絡端異常或者通信數據傳輸故障以及ICS通信網絡惡意入侵攻擊三類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010967322.9/1.html,轉載請聲明來源鉆瓜專利網。





