[發明專利]一種異常流量檢測方法有效
| 申請號: | 202011579734.1 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112583852B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 程相鑫;吳克河;高雪;姜媛;趙彤;肖卓;李為;樊祺;王皓民;韓嘉佳;孫歆;李沁園;邵志鵬;李尼格 | 申請(專利權)人: | 華北電力大學;國網浙江省電力有限公司電力科學研究院;國家電網有限公司;全球能源互聯網研究院有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06N3/04 |
| 代理公司: | 南京中律知識產權代理事務所(普通合伙) 32341 | 代理人: | 李建芳 |
| 地址: | 102206 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 異常 流量 檢測 方法 | ||
1.一種異常流量檢測方法,其特征在于:包括以下步驟:
步驟1:從抓包軟件中獲取網絡原始流量文件,對原始流量文件進行預處理,并將預處理后的數據作為數據樣本;
步驟2:利用卷積神經網絡對流量數據進行空間域的表征特征提取;
步驟3:利用LSTM對經過空間域特征提取后的數據進行時序特征提取;
步驟4:使用softmax回歸對提取后的特征進行分類,判定網絡流量異常與否;
步驟1中,對原始流量文件進行預處理包括如下步驟:
步驟1.1:流量切分:將原始流量數據集按照五元組信息是否相同劃分為多條數據流;
步驟1.2流量清理:去除或匿名化數據分組中的IP地址和MAC地址,以及舍棄沒有實際內容的空數據分組;
步驟1.3長度截斷:數據流長度為l,當l>1500B對數據l進行裁剪至l=1500B,當l<1500B,填充0x00至1500B大小;
步驟1.4歸一化:對數據流分組中每個字節轉換為十進制數值后除以255;
步驟2中,使用混合深度學習模型對數據進行特征提取,包括如下步驟:
步驟2.1卷積:將歸一化后的網絡流量特征序列X=[X1,X2,…,Xn]輸入到卷積神經網絡中,其中,n為從預處理中得到的每一組數據長度,并對其進行卷積與池化操作;
步驟2.2池化:池化層對卷積后生成的序列Vs進行池化操作,首先特征圖Vl經過池化分成N塊,并將每塊中的最大值順序拼接起來,得到長度為N的向量其中,單個卷積核與原始數據向量生成的特征圖向量Vl被劃分為N塊,maxpool最大池化作用于每塊,取最大數值從而完成特征采樣,將L個特征圖經過池化后得到的pl堆疊在一起,可得
步驟2.1中,卷積層設置多個卷積核W,卷積核大小d,步長為1,每個卷積核對卷積窗口D中的特征進行計算并生成一個新的特征,卷積窗口D對應大小為d的卷積核處理的數據的大小,對于卷積窗口D中的一個網絡流量特征子序列表示Xi:i+d-1,其中i表示一組長度為n的數據的第i個元素,卷積核Wl(1≤l≤L,L代表卷積核的個數)按式生成新的特征vl,其中,f為ReLU,Wl為該卷積層第l個卷積核,b代表該卷積核的偏置,Xi:i+d-1是Xi,Xi+1,…,Xi+d-1拼接而成的網絡流量特征子序列,當一個卷積核對到X0:d-1到Xn-d+1:n中的每個特征子序列進行遍歷后,得到該卷積核生成的特征圖其中,n-d+1表示數據向量可劃分為n-d+1個窗口的數據,將所有卷積核生成的特征圖進行堆疊得到新的序列表示Vs=[v1,v2,…,vn-d+1],其中其中,下標數據中的i表示原數據向量中第i個卷積窗口內的數據向量,是由L個卷積核處理的特征拼接而成,由于原始數據被劃分為n-d+1個小組,因此Vs中的元素v是從1到n-d+1個;
步驟3中,時序特征提取包括:
步驟3.1:將池化后的特征圖序列P視為一個時間序列并輸入LSTM網絡中,依次輸入P=[p1,p2,…,pL]=[p1,p2,…,pT],其中,T=N×L,t作為序列的下標,通過LSTM計算每個特征前后特征響下的輸出狀態,得到包含網絡流量數據空間特征與時間特征的向量,在時間步t上,LSTM按下式對pt進行特征提取:
it=σ(Wi·[ht-1,pt]+bi)
ft=σ(Wf·[ht-1,pt]+bf)
qt=tanh(Wq·[ht-1,pt]+bq)
ot=σ(Wo·[ht-1,pt]+bo)
ct=ft*ct-1+it*qt
bt=ot*tanh(ct)
其中,σ是sigmoid函數;tanh為雙曲正切函數;Wi、Wf、Wq、Wo為權重矩陣;bi、bf、bq、bo為偏置項;bt為t時刻的輸出;it為t時刻的輸入門,對輸入信息進行選擇操作;ft為t時刻的遺忘門,對需要被遺忘的信息進行遺忘操作;ot為t時刻的輸出門,用來對輸出信息行選擇;ct為t時刻的細胞狀態,用來判斷哪些信息應該被存儲;*為按元素乘;
步驟3.2:池化后的特征圖序列P經過LSTM網絡的處理,在此使用異步的序列到序列模式,即編碼器-解碼器模式進行處理,輸入長度為T,輸出長度為M的包含網絡流量數據空間特征與時間特征的向量B:
B=[bT+1,bT+2,…,bT+M];
步驟4中,使用softmax回歸對提取后的特征進行分類,包括:異常檢測分類器構建過程中,首先基于CNN-LSTM提取樣本的流量深度特征B,并輸入softmax,處理后輸出樣本X的預測類別Yc,其中類別標簽y∈{1,2,…,C},C=M:
其中,ωc是第c類的權重向量,softmax回歸決策表示為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華北電力大學;國網浙江省電力有限公司電力科學研究院;國家電網有限公司;全球能源互聯網研究院有限公司,未經華北電力大學;國網浙江省電力有限公司電力科學研究院;國家電網有限公司;全球能源互聯網研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011579734.1/1.html,轉載請聲明來源鉆瓜專利網。





