[發(fā)明專利]一種基于網(wǎng)絡(luò)流量分析的異常檢測方法有效
| 申請?zhí)枺?/td> | 201210560973.1 | 申請日: | 2012-12-20 |
| 公開(公告)號: | CN103023725A | 公開(公告)日: | 2013-04-03 |
| 發(fā)明(設(shè)計)人: | 賴英旭;李秀龍;楊震;劉靜;李健 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;H04L29/06 |
| 代理公司: | 北京思海天達(dá)知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)絡(luò)流量 分析 異常 檢測 方法 | ||
1.一種基于網(wǎng)絡(luò)流量分析的異常檢測方法,其特征在于包括以下步驟:
(1).首先進(jìn)行數(shù)據(jù)預(yù)處理:獲取主機(jī)上網(wǎng)流量,然后根據(jù)初始特征集和預(yù)先設(shè)定的時間間隔長度對主機(jī)上網(wǎng)流量進(jìn)行數(shù)據(jù)預(yù)處理,提取主機(jī)上網(wǎng)流量在各個時間間隔內(nèi)的初始特征值,即一定時間間隔內(nèi)各個初始特征的取值,形成樣本集,樣本集由多個樣本組成,每個樣本包含110個網(wǎng)絡(luò)流量初始特征的值,提出的網(wǎng)絡(luò)流量初始特征集合如下所示,它是主機(jī)在一定時間間隔內(nèi)產(chǎn)生的有關(guān)網(wǎng)絡(luò)流量的110個統(tǒng)計量:
1-4???上傳的IP數(shù)據(jù)包,ICMP包,TCP包,UDP包個數(shù)
5-8???上傳的IP數(shù)據(jù)包,ICMP包,TCP包,UDP字節(jié)數(shù)
9-12??下載的IP數(shù)據(jù)包,ICMP包,TCP包,UDP包個數(shù)
13-16?下載的IP數(shù)據(jù)包,ICMP包,TCP包,UDP字節(jié)數(shù)
17-22?上傳的IP包,ICMP包,TCP包,UDP包以及IP包首部,TCP包首部平均包長
23-28?上傳的IP包,ICMP包,TCP包,UDP包以及IP包首部,TCP包首部包長方差
29-34?下載的IP包,ICMP包,TCP包,UDP包以及IP包首部,TCP包首部平均長度
35-40?下載的IP包,ICMP包,TCP包,UDP包以及IP包首部,TCP包首部包長方差
41-44??IP數(shù)據(jù)包,ICMP包,TCP包,UDP包的上傳與下載數(shù)據(jù)包個數(shù)之比
45-48??IP數(shù)據(jù)包,ICMP包,TCP包,UDP包的上傳與下載流量大小之比
49-51?ICMP包,TCP包,UDP包各自所占的數(shù)據(jù)包個數(shù)比例
52-54?ICMP包,TCP包,UDP包各自所占的流量大小比例
55????與TCP?80端口通信的數(shù)據(jù)包個數(shù)所占的比例
56????與TCP?80端口通信的流量字節(jié)數(shù)所占的比例
57-59?使用ICMP通信,TCP通信,UDP通信的不重復(fù)的目的IP數(shù)
60-61?使用UDP通信不重復(fù)的源端口數(shù),目的端口數(shù)
62-63?使用TCP通信不重復(fù)的源端口數(shù),目的端口數(shù)
64-66?請求的連接數(shù),新建立的連接數(shù),保持的連接數(shù)
67-68?ICMP包中回送請求報文數(shù),回送回答報文數(shù)
69????IP首部大于20字節(jié)的數(shù)據(jù)包個數(shù)
70????TCP首部大于20字節(jié)的數(shù)據(jù)包個數(shù)
71-73?接收的ICMP,TCP,UDP數(shù)據(jù)包中小于100字節(jié)的數(shù)據(jù)包個數(shù)
74-76?發(fā)送的ICMP,TCP,UDP數(shù)據(jù)包中大于1000字節(jié)的數(shù)據(jù)包個數(shù)
77-78?與每個IP地址建立的TCP連接數(shù)的平均值,最大值
79-80?與每個IP地址上傳的數(shù)據(jù)包個數(shù)的平均值,最大值
81-82?與每個IP地址下載的數(shù)據(jù)包個數(shù)的平均值,最大值
83-84?與每個IP地址上傳的流量大小的平均值,最大值
85-86?與每個IP地址下載的流量大小的平均值,最大值
87-88?與每個IP地址通信發(fā)送的大包數(shù)的平均值,最大值
89-90?與每個IP地址通信下載的小包數(shù)的平均值,最大值
91-94?與每個IP地址通信不重復(fù)的TCP,UDP的源端口數(shù)的平均值,最大值
95-98?與每個IP地址通信不重復(fù)的TCP,UDP的目的端口數(shù)的平均值,最大值
99-100??各個連接中上傳的數(shù)據(jù)包個數(shù)的平均值,最大值
101-102?各個連接中下載的數(shù)據(jù)包個數(shù)的平均值,最大值
103-104?各個連接中上傳的流量大小的平均值,最大值
105-106?各個連接中下載的流量大小的平均值,最大值
107-108?各個連接中發(fā)送大包數(shù)的最大值,平均值
109-110?各個連接中接收小包數(shù)的最大值,平均值
(2).然后進(jìn)行特征選擇:在特征選擇之前,先給出相關(guān)的定義:
定義1?正常樣本集是正常的網(wǎng)絡(luò)流量經(jīng)過步驟1中的數(shù)據(jù)預(yù)處理之后產(chǎn)生的正常樣本的集合;每個樣本包含一定時間間隔內(nèi)110個網(wǎng)絡(luò)流量初始特征的值;
定義2?異常樣本集是異常的網(wǎng)絡(luò)流量經(jīng)過步驟1中的數(shù)據(jù)預(yù)處理之后產(chǎn)生的異常樣本的集合;每個樣本包含一定時間間隔內(nèi)110個網(wǎng)絡(luò)流量初始特征的值;異常網(wǎng)絡(luò)流量包括網(wǎng)絡(luò)故障產(chǎn)生的網(wǎng)絡(luò)流量以及惡意代碼產(chǎn)生的網(wǎng)絡(luò)流量;?
定義3?定義偏離度計算公式,用于計算一個未知樣本的110個特征與已知樣本集對應(yīng)特征的偏離程度;其中μi為已知樣本集的110個特征中的一個特征i的平均值,即已知樣本集中特征i取值大于零的樣本在特征i上的取值的算術(shù)平均值;maxi是已知樣本集中所有樣本在特征i上的取值的最大值,xi是新出現(xiàn)的一個未知樣本中特征i的值,i是特征編號,i=1,2,…,110;
定義4?定義threshold為特征集偏離度之比門限值,即選擇出的特征子集中所有特征的偏離度之和占初始特征集中所有特征偏離度之和的比重的門限值,若果選擇出的特征子集達(dá)到此門限值,則該特征子集可以用來進(jìn)行異常檢測;設(shè)定該門限值的取值范圍為[0.5,1),門限值取值越大,選擇出的特征子集的特征個數(shù)越多,后續(xù)的計算復(fù)雜度也會越高;
定義5?定義compression_ratio為特征壓縮率門限值,即選擇出的特征子集的特征個數(shù)占初始特征集特征個數(shù)比重的門限值,如果選擇出的特征子集低于該門限值,則該特征子集可以用來進(jìn)行異常檢測;設(shè)定該門限值的取值范圍為(0.01,0.5),?門限值取值越大,選擇出的特征子集的特征個數(shù)越多,后續(xù)的計算復(fù)雜度也會越高;?
定義6?定義數(shù)據(jù)結(jié)構(gòu)ATTR(index,offset),其中index為特征在初始特征集中的位置,offset為該特征的偏離程度;
利用動態(tài)特征選擇算法,?選擇出適合于分類的最優(yōu)特征子集,動態(tài)特征選擇算法步驟如下:
1)?從i=1開始一直到i=110,使用定義3中的偏離度計算公式計算?V1i,V2i,?其中V1i是正常樣本集2與正常樣本集1對比后,特征i的平均偏離程度,即正常樣本集2中每個樣本的特征i相對正常樣本集1的特征i的偏離程度的平均值;V2i是異常樣本集與正常樣本集1對比后,特征i的平均偏離程度,即異常樣本集中每個樣本的特征i相對正常樣本集1的特征i的偏離程度的平均值;使用定義6中的數(shù)據(jù)結(jié)構(gòu)ATTR定義長度為110的數(shù)組W,令Wi.index=i,,令total_offset=ΣWi.offset來統(tǒng)計110個特征的偏離度之和并對數(shù)組W按字段offset由大到小進(jìn)行排序,i=1,2,…,110;
2)?計算令的最小m值,其中m為選擇出的特征個數(shù),threshold為定義4中的特征集偏離度之比門限值,若選擇出的特征子集達(dá)到此門限值,則選擇出的特征個數(shù)取值為m;若選擇的特征子集沒有達(dá)到此門限值,而且m≥110*compression_ratio,則令選擇出的特征個數(shù)取值為m=[110*compression_ratio],公式中[]在本發(fā)明中表示取整數(shù),110為初始特征集特征個數(shù),compression_ratio是定義5中的特征壓縮率門限值,故110*compression_ratio為選擇特征個數(shù)的門限值;
?3)?保存m值以及這m個特征在初始特征集中的位置,算法結(jié)束;
選擇出的用于檢測異常的特征子集將作為貝葉斯算法的輸入進(jìn)行異常檢測;
(3).最后進(jìn)行異常檢測:使用選擇出的特征子集和貝葉斯分類算法對未知樣本進(jìn)行分類,如果分類結(jié)果為異常,則進(jìn)行異常提示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210560973.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于溫度繼電器控制的筆記本散熱器
- 下一篇:散熱風(fēng)扇模組
- 無線數(shù)據(jù)卡中的網(wǎng)絡(luò)流量統(tǒng)計指示裝置
- 網(wǎng)絡(luò)流量回放測試方法及裝置
- 移動應(yīng)用網(wǎng)絡(luò)流量聚類方法、計算機(jī)可讀存儲介質(zhì)和終端
- 移動應(yīng)用網(wǎng)絡(luò)流量聚類裝置
- 一種網(wǎng)絡(luò)流量表示的方法及裝置
- 基于網(wǎng)絡(luò)流量多視圖融合的惡意軟件檢測方法及系統(tǒng)
- 一種網(wǎng)絡(luò)流量預(yù)測方法、裝置及電子設(shè)備
- 異常網(wǎng)絡(luò)流量檢測方法、可讀存儲介質(zhì)和終端
- 異常網(wǎng)絡(luò)流量檢測裝置
- 一種網(wǎng)絡(luò)流量分類方法和系統(tǒng)





