[發明專利]一種基于特征選擇與密度峰值聚類的異常流量檢測方法有效
| 申請號: | 201610023675.7 | 申請日: | 2016-01-14 |
| 公開(公告)號: | CN105577679B | 公開(公告)日: | 2019-02-15 |
| 發明(設計)人: | 何道敬;倪謝俊;黃琳 | 申請(專利權)人: | 華東師范大學;北京奇虎測騰科技有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06 |
| 代理公司: | 上海麥其知識產權代理事務所(普通合伙) 31257 | 代理人: | 董紅曼 |
| 地址: | 200062 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 選擇 密度 峰值 異常 流量 檢測 方法 | ||
1.一種基于特征選擇以及密度峰值聚類的網絡流量異常檢測方法,其特征在于,包括如下階段:
流量采集階段:通過網絡分析工具監聽網絡,并將監聽到的數據包采集到本地;
特征提取階段:從所述數據包中提取屬于同一個流的數據包,對所述數據包進行特征抽取,并將提取的特征進行歸一化;
特征選擇階段:利用最大信息系數評估每個特征對分類決策的重要性,再根據特征之間的冗余度對特征進行簡單聚類,在相互之間存在冗余的特征中選擇出重要性最高的一個特征加入特征子集;
聚類分析階段:對所述特征子集的特征,采用改進的基于密度峰值的聚類方法對特征進行聚類,將其分為多個流量類型簇,對每一個所述流量類型簇進行少量抽樣,通過已有的入侵數據庫、網絡流量和日志文件進行分析來對抽樣的流量數據進行分辨并標記,利用抽樣樣本眾數類別的流量類型來表示整個流量類型簇的流量類型,以檢測出異常流量;
所述聚類分析階段包括如下實施步驟:
步驟4a:將經過重要度篩選以及冗余度篩選的特征所形成的子集導入系統用于聚類分析;
步驟4b:載入特征選擇好的低維數據,根據總條數N,確定樣本數目為Sample=C*N^(1/2),進行隨機抽樣,C為不超過5的常數;給定用于確定截斷距離dc的參數t∈(0,1),計算距離dij,并令dij=dji,i<j,i,j∈IS;確定截斷距離dc;將上一步計算的距離dij(i<j),共個距離值進行升序排序,設得到的序列為d1<=d2≤…≤dM,取dc=df(Mt),其中f(Mt)表示對Mt進行四舍五入后得到的整數;按照局部密度定義計算并生成其降序排列下標序確定聚類中心并初始化數據點歸類屬性標記具體為
步驟4c:在聚類階段,需要對所有數據進行標記;即Label[i]=argminj∈Centers(eculidean_distance(D[i],Center[j]));在對非聚類中心數據點進行歸類時,判斷是否為-1,若是則將與其密度大于它的距離最小的一個點的聚類中心值賦予;設j屬于數據中心的編號,對于數據點D[i],遍歷聚類中心Center[]數組,保存該數據點到所有中心Center[j]的距離的最小值以及取得最小值的中心下標j,然后將Label[i]的值設為j,表示j為數據i的聚類簇編號;
步驟4d:由于步驟4c中的標記,這些數據已經被分為相應的簇,對于每一個簇,進行如下操作:從每一個簇中抽取少數量的記錄,根據已有的入侵數據庫、網絡流量和日志文件對抽樣的流量數據進行分辨,從而達到較高的檢測率,采取多數表決制度,選擇數量最大的記錄類型作為該簇的記錄類型;利用抽樣樣本眾數類別的流量類型來表示整個流量類型簇的流量類型,檢測出異常流量。
2.根據權利要求1所述的基于特征選擇以及密度峰值聚類的網絡流量異常檢測方法,其特征在于,所述流量采集階段包括下述步驟:
步驟1a:初始化Linux系統;
步驟1b:使用yum命令來安裝tcpdump;
步驟1c:采集通過系統的網卡的流量抓取tcp數據包,將數據包保存到本地的.cap文件中。
3.根據權利要求1所述的基于特征選擇以及密度峰值聚類的網絡流量異常檢測方法,其特征在于,所述特征提取階段包括下述步驟:
步驟2a:從所述數據包的IP包頭中提取五元組,所述五元組為源地址、源端口、目的地址、目的端口以及協議類型;
步驟2b:從所述數據包的TCP報頭中提取flag字段的特征,包括基本特征、時間戳、從源主機到目標主機數據的字節數、從目標主機到源主機的數據字節數;
步驟2c:將連續的特征進行歸一化,使之落在[0.0,1.0]的區間內。
4.根據權利要求1所述的基于特征選擇以及密度峰值聚類的網絡流量異常檢測方法,其特征在于,所述特征選擇階段包括下述步驟:
步驟3a:將所述數據的特征分為離散型與連續型,其中離散型的特征直接使用互信息公式計算兩個特征之間的相關度;對于連續型的特征,使用最大信息系數來評估兩個特征之間的相關度;
步驟3b:將每一個特征與其他特征之間的關聯度進行求和,得到求和變量數值;
步驟3c:移除所述求和變量數值小于特定閾值的特征;
步驟3d:對于剩余的特征,將兩者之間相關度大于特定閾值的特征進行聚類,形成簇,同一簇內的特征存在冗余,
步驟3e:對每一個簇,選取簇內與其他特征之間相關度最大的一個特征,加入并獲得特征子集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學;北京奇虎測騰科技有限公司,未經華東師范大學;北京奇虎測騰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610023675.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種燈絲預熱電路及電子鎮流器
- 下一篇:一次性使用的連續多次定量注射器





