[發(fā)明專利]網(wǎng)絡流量自動化特征挖掘方法有效
| 申請?zhí)枺?/td> | 201310008027.0 | 申請日: | 2013-01-09 |
| 公開(公告)號: | CN103067300A | 公開(公告)日: | 2013-04-24 |
| 發(fā)明(設計)人: | 薛一波;袁振龍 | 申請(專利權)人: | 清華大學 |
| 主分類號: | H04L12/811 | 分類號: | H04L12/811 |
| 代理公司: | 北京路浩知識產(chǎn)權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網(wǎng)絡流量 自動化 特征 挖掘 方法 | ||
技術領域
本發(fā)明涉及網(wǎng)絡流量技術領域,特別涉及一種網(wǎng)絡流量自動化特征挖掘方法。
背景技術
自動化特征挖掘是網(wǎng)絡流量分類技術領域中存在的基本問題之一。其需要解決的問題就是快速而準確地自動化式挖掘出不同應用產(chǎn)生的網(wǎng)絡流量所存在的特征,以便于更好地管理和監(jiān)控互聯(lián)網(wǎng)網(wǎng)絡。
在計算機科學以及數(shù)據(jù)挖掘領域中,Apriori是關聯(lián)式規(guī)則中的經(jīng)典算法之一。Apriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯(lián)規(guī)則在分類上屬于單維、單層、布爾關聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
隨著計算機網(wǎng)絡的普及,網(wǎng)絡應用的數(shù)量日益增長,新的版本、新的應用給網(wǎng)絡流量的管理和監(jiān)控帶來了愈來愈多的困難,也給強特征識別這種當前在互聯(lián)網(wǎng)流量管理中起主要作用的流量識別手段帶來很大的挑戰(zhàn)。而這其中,最關鍵的問題是依賴傳統(tǒng)的人工搜尋眾多應用強特征的方法十分耗時、耗力,因此人們開始急需一種自動化的特征挖掘方法,以跟上眾多應用不同版本下流量特征快速變化的特點。
因此,如何設計一種自動化特征挖掘的方法成為了當前網(wǎng)絡流量管理和監(jiān)控的核心問題。盡管Apriori算法作為挖掘大量數(shù)據(jù)下頻繁項的有力方法符合我們在解決自動化特征挖掘難題中的部分需求。但是產(chǎn)生大量的候選集以及需要重復掃描數(shù)據(jù)庫一直是Apriori算法的兩大缺點,這兩點缺點嚴重影響了在網(wǎng)絡流量特征自動化挖掘中的效能。
因此,我們迫切需要引入新的思路和方法,來解決自動化特征挖掘算法中存在的效果和性能雙重問題,使之更適用于幫助我們對網(wǎng)絡流量的自動化分析和管控。
發(fā)明內(nèi)容
(一)要解決的技術問題
本發(fā)明要解決的技術問題是,針對現(xiàn)有技術不足,提供一種網(wǎng)絡流量自動化特征挖掘方法,可有效地自動化挖掘網(wǎng)絡流量中所存在的特征(包括載荷特征和統(tǒng)計特征),減少人工參與的程度。
(二)技術方案
本發(fā)明提供一種網(wǎng)絡流量自動化特征挖掘方法,包括步驟:S1:網(wǎng)絡流量數(shù)據(jù)的預處理;S2:最高支持度頻繁項挖掘;S3:依據(jù)頻繁項層次化迭代聚類;S4:按層次分級輸出有效特征組合。
其中,S1包括:S1.1:捕獲網(wǎng)絡流量信息;S1.2:預處理捕獲流量,提取其流量載荷特征和流特征;S1.3:格式化打印輸出已提取的載荷特征和流特征。
其中,S1.1包括:S1.1.1:利用Wireshark或者Tcpdump抓包軟件或工具在本機或出口網(wǎng)關上捕獲網(wǎng)絡流量;S1.1.2:根據(jù)流量過濾規(guī)則過濾出指定應用的網(wǎng)絡流量。
其中,S1.2包括:S1.2.1:將已得到的網(wǎng)絡流量輸入libnids流量處理系統(tǒng)中;載荷特征為數(shù)據(jù)包載荷部分的字節(jié)值,流特征為網(wǎng)絡流的統(tǒng)計特征,如數(shù)據(jù)包包長。
其中,S1.3包括:S1.3.1:將提取到的網(wǎng)絡流中每個數(shù)據(jù)包的載荷的每個字節(jié)轉(zhuǎn)換為兩位16進制表示,并分別添加三位16進制數(shù)表示每個字節(jié)在所屬數(shù)據(jù)包中全部載荷內(nèi)的序號位置,注意將同屬一個數(shù)據(jù)包載荷部分的數(shù)據(jù)排列成一行,這樣對于N個數(shù)據(jù)包則存在N行數(shù)據(jù),其中每行數(shù)據(jù)中每一列均為5位16進制數(shù);S1.3.2:將提取到的網(wǎng)絡流中的流特征,如數(shù)據(jù)包包長大小,也轉(zhuǎn)換為三位16進制數(shù)表示,并分別添加四位16進制數(shù)表示每個數(shù)據(jù)包在五元組網(wǎng)絡流中的序號位置,注意將同屬一個網(wǎng)絡流的數(shù)據(jù)排列成一行,這樣對于N條網(wǎng)絡流則存在N行數(shù)據(jù),其中每行數(shù)據(jù)中每一列均為7位16進制數(shù)。
其中,S2包括:S2.1:利用Apriori算法計算針對載荷特征的N行數(shù)據(jù)或者針對流特征的N行數(shù)據(jù)的最高支持度的頻繁項;S2.2:根據(jù)S2.1計算得到的最高支持度的頻繁項,將所有包含此頻繁項的行聚為一類,并將其設為A類,將其余不包含此最高支持度頻繁項的行聚為另一類,并將其設為B類;S2.3:將S2.2中得到的B類再次利用Apriori算法計算其最高支持度的頻繁項,并將包含此頻繁項的行聚為一類,將其設為C類,將所述B類中不包含此最高支持度頻繁項的行聚為另一類,并將其設為D類;S2.4:每次將不包含最高支持度頻繁項的類重復執(zhí)行S2.3,直到全部行聚類完成,且每類中高支持度頻繁項的支持度均為1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經(jīng)清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310008027.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





