[發(fā)明專利]基于Hadoop的邊緣網(wǎng)出口網(wǎng)絡(luò)流量異常檢測方法有效
| 申請?zhí)枺?/td> | 201610114854.1 | 申請日: | 2016-03-01 |
| 公開(公告)號: | CN105553787B | 公開(公告)日: | 2019-07-26 |
| 發(fā)明(設(shè)計)人: | 王之梁;田庚;尹霞;施新剛;李子木;周超 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;H04L29/06;H04L29/12 |
| 代理公司: | 北京中偉智信專利商標代理事務(wù)所 11325 | 代理人: | 張岱 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hadoop 邊緣 出口 網(wǎng)絡(luò)流量 異常 檢測 方法 系統(tǒng) | ||
本發(fā)明公開一種基于Hadoop的邊緣網(wǎng)出口網(wǎng)絡(luò)流量異常檢測方法及系統(tǒng)。本發(fā)明具有架構(gòu)獨立,部署方便,只需接收邊界路由器的流記錄數(shù)據(jù)即可在系統(tǒng)中完成異常檢測任務(wù),不需關(guān)心自治域(AS)內(nèi)部網(wǎng)絡(luò)拓撲;另外,在異常檢測方面,本發(fā)明采取了宏觀和微觀分析相結(jié)合的方式進行,在宏觀上采用了Tsallis熵值作為異常檢測的依據(jù),在微觀上采用了對異常時間片的集中點進行統(tǒng)計的方式,并且提出了針對上述集中點半自動判斷發(fā)生異常的標準,使得最終檢測的結(jié)果更加準確和有效;最后,本發(fā)明通過在Hadoop集群上運行,擁有對海量網(wǎng)絡(luò)流記錄數(shù)據(jù)進行異常檢測的能力。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于Hadoop的邊緣網(wǎng)出口網(wǎng)絡(luò)流量異常檢測系統(tǒng)及其方法。
背景技術(shù)
如何在海量數(shù)據(jù)的網(wǎng)絡(luò)中進行網(wǎng)絡(luò)流量異常檢測是一項重大的挑戰(zhàn),目前已經(jīng)提出了多種網(wǎng)絡(luò)流量異常檢測算法及其解決方案,最常見的為基于原始數(shù)據(jù)包的檢測和基于網(wǎng)絡(luò)數(shù)據(jù)流的檢測。
在網(wǎng)絡(luò)流量數(shù)據(jù)采集方面,基于原始數(shù)據(jù)包的網(wǎng)絡(luò)流量異常檢測解決方案,雖然獲取的數(shù)據(jù)較為全面,但也由于自治域內(nèi)數(shù)據(jù)包的數(shù)量非常巨大,很難在單臺設(shè)備上實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的采集,而基于網(wǎng)絡(luò)數(shù)據(jù)流的網(wǎng)絡(luò)流量異常檢測方案由于分析的數(shù)據(jù)源為網(wǎng)絡(luò)流量的統(tǒng)計信息,這就使得網(wǎng)絡(luò)流量采集的處理和存儲開銷更小,網(wǎng)絡(luò)流量異常檢測系統(tǒng)更加具有可擴展性。
在流量異常檢測方面,由于基于熵的網(wǎng)絡(luò)流量異常檢測可以將一個時間段內(nèi)所有數(shù)據(jù)流的某個字段值的概率分布濃縮成一個具體的熵值,且異常時間片對應(yīng)的熵值會和正常時間片對應(yīng)的熵值有所區(qū)別,所以根據(jù)時間片的熵值可以檢測網(wǎng)絡(luò)流量是否存在異常;在海量網(wǎng)絡(luò)流記錄數(shù)據(jù)處理方面,采用基于Hadoop 云計算平臺的大數(shù)據(jù)技術(shù)則可以很好的解決處理能力問題。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明提供一種結(jié)果準確、有效,實現(xiàn)方便的基于Hadoop 的邊緣網(wǎng)出口網(wǎng)絡(luò)流量異常檢測方法、系統(tǒng)
為達到上述目的,本發(fā)明基于Hadoop的邊緣網(wǎng)出口網(wǎng)絡(luò)流量異常檢測方法,所述方法包括:
對訓(xùn)練數(shù)據(jù)流進行訓(xùn)練,得到異常數(shù)據(jù)流的檢測閾值;
接收AS邊界路由器輸出的在線流數(shù)據(jù)流;
基于所述檢測閾值分別判斷在線流數(shù)據(jù)和離線流數(shù)據(jù)的異常時間片是否超過閾值;
記錄并顯示檢測結(jié)果。
進一步地,對訓(xùn)練數(shù)據(jù)流進行數(shù)據(jù)訓(xùn)練的方法,具體包括如下步驟:
在MapReduce框架下,對所有訓(xùn)練數(shù)據(jù)流進行離線熵值計算,計算所有時間片的熵值;
對經(jīng)過MapReduce得到的熵值文件進行處理,將4種不同方向的流量分別寫入4個不同的文件,所述不同方向的流量分別為:外部流量、外部流入流量、內(nèi)部流出流量、內(nèi)部流量;
以得到的熵值文件為輸入,利用FCM聚類算法進行聚類,得到4種不同流量分別對應(yīng)的正常類和異常類的中心點c和半徑r,并將正常類對應(yīng)的c+a*r作為上閾值,將c-a*r作為下閾值,a為大于0的實數(shù),將閾值分別寫入4種流量對應(yīng)的檢測閾值文件。
進一步地,在線數(shù)據(jù)數(shù)據(jù)采集方法,具體包括如下步驟:
從網(wǎng)絡(luò)中抓取由As邊界路由器主動發(fā)送來的IPFIX流數(shù)據(jù);
根據(jù)IPFIX模版進行解碼,并轉(zhuǎn)換成對應(yīng)的文本格式;
將轉(zhuǎn)換后的文本文件保存到Hadoop集群HDFS文件系統(tǒng)下指定的目錄。
進一步地,離線數(shù)據(jù)檢測方法,具體包括如下步驟:
在MapReduce框架下,對所有的被檢測離線流記錄數(shù)據(jù)進行離線熵值計算,計算所有時間片對應(yīng)的4個不同流量方向的熵值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610114854.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種實現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計算的Hadoop平臺度量方法
- 云環(huán)境中模型驅(qū)動的Hadoop部署方法
- 基于麒麟云計算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲介質(zhì)
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應(yīng)用方法





