[發(fā)明專(zhuān)利]基于Hadoop的邊緣網(wǎng)出口網(wǎng)絡(luò)流量異常檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201610114854.1 | 申請(qǐng)日: | 2016-03-01 |
| 公開(kāi)(公告)號(hào): | CN105553787B | 公開(kāi)(公告)日: | 2019-07-26 |
| 發(fā)明(設(shè)計(jì))人: | 王之梁;田庚;尹霞;施新剛;李子木;周超 | 申請(qǐng)(專(zhuān)利權(quán))人: | 清華大學(xué) |
| 主分類(lèi)號(hào): | H04L12/26 | 分類(lèi)號(hào): | H04L12/26;H04L29/06;H04L29/12 |
| 代理公司: | 北京中偉智信專(zhuān)利商標(biāo)代理事務(wù)所 11325 | 代理人: | 張岱 |
| 地址: | 100084*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hadoop 邊緣 出口 網(wǎng)絡(luò)流量 異常 檢測(cè) 方法 系統(tǒng) | ||
1.一種基于Hadoop的邊緣網(wǎng)出口網(wǎng)絡(luò)流量異常檢測(cè)方法,其特征在于:所述方法包括:
對(duì)訓(xùn)練數(shù)據(jù)流進(jìn)行訓(xùn)練,得到異常數(shù)據(jù)流的檢測(cè)閾值;
接收AS邊界路由器輸出的在線流數(shù)據(jù)流;
基于所述檢測(cè)閾值分別判斷在線流數(shù)據(jù)和離線流數(shù)據(jù)的異常時(shí)間片是否超過(guò)閾值;
記錄并顯示檢測(cè)結(jié)果;
對(duì)訓(xùn)練數(shù)據(jù)流進(jìn)行數(shù)據(jù)訓(xùn)練的方法,具體包括如下步驟:
根據(jù)源As號(hào)和目的As號(hào)劃分所述的訓(xùn)練數(shù)據(jù)流為4個(gè)流量方向,所述4個(gè)流量方向分別為:外部流量、外部流入流量、內(nèi)部流出流量、內(nèi)部流量;
在MapReduce框架下,對(duì)所有訓(xùn)練數(shù)據(jù)流進(jìn)行離線熵值計(jì)算,分別計(jì)算4個(gè)流量方向所有時(shí)間片的熵值;
對(duì)經(jīng)過(guò)MapReduce得到的熵值文件進(jìn)行處理,將4種不同方向的流量分別寫(xiě)入4個(gè)不同的文件;
以得到的熵值文件為輸入,利用FCM聚類(lèi)算法進(jìn)行聚類(lèi),得到4種不同流量分別對(duì)應(yīng)的正常類(lèi)和異常類(lèi)的中心點(diǎn)c和半徑r,并將正常類(lèi)對(duì)應(yīng)的c+a*r作為上閾值,將c-a*r作為下閾值,a為大于0的實(shí)數(shù),將閾值分別寫(xiě)入4種流量對(duì)應(yīng)的檢測(cè)閾值文件;
離線熵值計(jì)算方法,具體為:
Map階段:
在Map函數(shù)中提取流記錄文件中每條流記錄中的結(jié)束時(shí)間、源As號(hào)、目的As號(hào)、目的Ip地址、源端口號(hào)、目的端口號(hào)、協(xié)議號(hào)、TCP協(xié)議控制位內(nèi)容;
按照結(jié)束時(shí)間將流記錄劃分到具體的時(shí)間片,時(shí)間片序號(hào)為:取整(結(jié)束時(shí)間/時(shí)間間隔);
根據(jù)源As號(hào)和目的As號(hào)將域內(nèi)網(wǎng)絡(luò)流量劃分為4個(gè)方向的流量:外部流量、外部流入流量、內(nèi)部流出流量、內(nèi)部流量;
針對(duì)每條流記錄,輸出4個(gè)〈key,value〉對(duì),格式分別為:〈“流量方向時(shí)間片序號(hào)源Ip地址協(xié)議號(hào) TCP控制位”,1〉,〈“流量方向時(shí)間片序號(hào)源端口地址協(xié)議號(hào) TCP控制位”,1〉,〈“流量方向時(shí)間片序號(hào)目的Ip地址協(xié)議號(hào) TCP控制位”,1〉,〈“流量方向時(shí)間片序號(hào)目的端口地址協(xié)議號(hào) TCP控制位”,1〉;
Combine階段:
對(duì)進(jìn)入同一Combiner的相同Key值對(duì)應(yīng)的value值做累加,得到累加值;
將Key值拆分成2部分,第一部分“流量方向時(shí)間片序號(hào)”作為新的Key值,剩下的第二部分加上得到的累加值(Sum)作為新的value值,具體輸出格式如下:〈“流量方向時(shí)間片序號(hào)”,“源Ip地址/源端口地址/目的Ip地址/目的端口地址協(xié)議號(hào) TCP控制位 Sum”〉;
Reduce階段:
建立4個(gè)格式為<String,Integer>的二維表,分別對(duì)應(yīng)源Ip地址、源端口號(hào)、目的Ip地址、目的端口號(hào)所在的新組合,其中String類(lèi)型部分存儲(chǔ)value對(duì)應(yīng)的不重復(fù)的字符串,Integer用來(lái)存儲(chǔ)該字符串在這個(gè)key對(duì)應(yīng)的value迭代器中出現(xiàn)的次數(shù),處理key對(duì)應(yīng)的所有value值,形成最終的4個(gè)二維表;
獲取用戶給定參數(shù)、的值,遍歷二維表,將所有Integer類(lèi)型對(duì)應(yīng)的值v取出來(lái),得到和,根據(jù)熵值公式得;
將得到的4個(gè)熵值按照格式“流量方向時(shí)間片序號(hào)源Ip地址對(duì)應(yīng)熵值源端口號(hào)對(duì)應(yīng)熵值目的Ip地址對(duì)應(yīng)熵值目的端口號(hào)對(duì)應(yīng)熵值”輸出。
2.根據(jù)權(quán)利要求1所述的基于Hadoop的網(wǎng)絡(luò)流量異常檢測(cè)方法,其特征在于:在線數(shù)據(jù)數(shù)據(jù)采集方法,具體包括如下步驟:
從網(wǎng)絡(luò)中抓取由As邊界路由器主動(dòng)發(fā)送來(lái)的IPFIX流數(shù)據(jù);
根據(jù)IPFIX模版進(jìn)行解碼,并轉(zhuǎn)換成對(duì)應(yīng)的文本格式;
將轉(zhuǎn)換后的文本文件保存到Hadoop集群HDFS文件系統(tǒng)下指定的目錄。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610114854.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種實(shí)現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲(chǔ)模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計(jì)算的Hadoop平臺(tái)度量方法
- 云環(huán)境中模型驅(qū)動(dòng)的Hadoop部署方法
- 基于麒麟云計(jì)算平臺(tái)的Hadoop集群自動(dòng)化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲(chǔ)、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲(chǔ)介質(zhì)
- 一種文件型門(mén)衛(wèi)式存儲(chǔ)加密功能的Hadoop系統(tǒng)及其應(yīng)用方法





