[發(fā)明專利]基于Hadoop平臺(tái)的深度包檢測系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 201410317160.9 | 申請(qǐng)日: | 2014-07-04 |
| 公開(公告)號(hào): | CN104156389A | 公開(公告)日: | 2014-11-19 |
| 發(fā)明(設(shè)計(jì))人: | 雒江濤;楊軍超;胡汝榮;向程超;高偉;王小平;申建;劉勇 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 重慶市恒信知識(shí)產(chǎn)權(quán)代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 *** | 國省代碼: | 重慶;85 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hadoop 平臺(tái) 深度 檢測 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及海量網(wǎng)絡(luò)數(shù)據(jù)的分析,尤其涉及一種深度包檢測系統(tǒng)。
背景技術(shù)
深度包檢測技術(shù)即DPI技術(shù)是一種基于應(yīng)用層的流量檢測和控制技術(shù),深度包檢測技術(shù)廣泛用于數(shù)據(jù)包應(yīng)用類型分析、用戶行為分析,以及入侵檢測、病毒/蠕蟲檢測等方面,是數(shù)據(jù)挖掘的重要手段。
大數(shù)據(jù)時(shí)代的到來給傳統(tǒng)網(wǎng)絡(luò)流量分析方法帶來了新的沖擊,特別是在網(wǎng)絡(luò)流量監(jiān)控、安全管理、內(nèi)容審計(jì),以及電信運(yùn)營商的分類計(jì)費(fèi)、市場營銷和智能管道建設(shè)等方面對(duì)于流量分析提出了更高的要求和挑戰(zhàn)。
傳統(tǒng)網(wǎng)絡(luò)流量分析方法主要包括基于傳輸協(xié)議端口、特征內(nèi)容、流量特征統(tǒng)計(jì)的分析,上述分析方法不能滿足流量分類和深度分析多功能需求。基于深度包檢測技術(shù)的流量識(shí)別優(yōu)點(diǎn)在于能夠解析較深層次的網(wǎng)絡(luò)協(xié)議,具有較高的匹配準(zhǔn)確率,但由于DPI需要對(duì)每個(gè)數(shù)據(jù)包進(jìn)行解析,伴隨著網(wǎng)絡(luò)流量的爆炸式增漲,處理速度已成為基于DPI流量深度分析的瓶頸。需要采用新的方法解決大數(shù)據(jù)深度分析面臨的精確、速度和成本的挑戰(zhàn)。
發(fā)明內(nèi)容
基于以上問題,本發(fā)明充分利用Hadoop分布式計(jì)算平臺(tái)的開源、高效、穩(wěn)定、容錯(cuò)性高等優(yōu)勢,將深度包檢測技術(shù)集成到Hadoop平臺(tái),滿足大數(shù)據(jù)存儲(chǔ)與流量深度分析的需求。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案是:提出一種基于Hadoop(分布式系統(tǒng)基礎(chǔ)架構(gòu))平臺(tái)深度包檢測系統(tǒng),所述系統(tǒng)包括網(wǎng)絡(luò)爬蟲和深度包檢測部分,網(wǎng)絡(luò)爬蟲部分通過抓取與分析網(wǎng)頁,不斷迭代更新映射關(guān)系庫,供深度包檢測部分匹配使用,該部分包括網(wǎng)絡(luò)爬蟲模塊和網(wǎng)頁分析模塊,網(wǎng)絡(luò)爬蟲模塊抓取特定網(wǎng)站網(wǎng)頁文件,為網(wǎng)頁分析模塊提供輸入;網(wǎng)頁分析模塊分析網(wǎng)頁文件,得到URL(統(tǒng)一資源定位符)與網(wǎng)頁分級(jí)內(nèi)容的映射關(guān)系,供DPI模塊匹配使用。根據(jù)抓取頁面不斷迭代更新數(shù)據(jù)庫中的映射關(guān)系庫;深度包檢測部分包括數(shù)據(jù)包解析PA模塊、流量分類TC模塊、深度包檢測DPI模塊,PA模塊將原始數(shù)據(jù)解析成五元組流,輸入TC模塊,TC模塊將輸入的五元組流做業(yè)務(wù)流標(biāo)記,生成特定業(yè)務(wù)流輸入DPI模塊,DPI模塊將特定業(yè)務(wù)流轉(zhuǎn)化成DPI事件,將DPI事件與映射關(guān)系庫匹配,完成DPI事件統(tǒng)計(jì)。
PA模塊將原始數(shù)據(jù)解析成五元組流,輸入TC模塊具體包括,PA模塊讀取HDFS中原始數(shù)據(jù)流,以數(shù)據(jù)包偏移量為Key、數(shù)據(jù)包內(nèi)容為Value的鍵值對(duì)形式作為MapReduce的輸入,結(jié)果輸出以五元組為Key、五元組流和流特征統(tǒng)計(jì)為Value的形式,存儲(chǔ)到HDFS中。TC模塊將輸入的五元組流做業(yè)務(wù)流標(biāo)記,生成特定業(yè)務(wù)流輸入DPI模塊具體包括,TC模塊讀取HDFS中五元組流,以五元組為Key、五元組流為Value的鍵值對(duì)形式作為MapReduce的輸入,結(jié)果輸出以五元組/業(yè)務(wù)標(biāo)記為Key、業(yè)務(wù)標(biāo)記流為Value的形式,存儲(chǔ)到HDFS中。DPI模塊將特定業(yè)務(wù)流轉(zhuǎn)化成DPI事件具體包括,DPI模塊讀取HDFS中特定業(yè)務(wù)流,以五元組/業(yè)務(wù)標(biāo)記為Key、特定業(yè)務(wù)流特征為Value的鍵值對(duì)形式作為MapReduce輸入,結(jié)果輸出以五元組/業(yè)務(wù)標(biāo)記為Key、DPI事件為Value的形式。
本發(fā)明還提出一種基于Hadoop平臺(tái)深度包檢測方法,包括步驟:網(wǎng)絡(luò)爬蟲模塊不斷循環(huán)抓取特定網(wǎng)站網(wǎng)頁文件,文件解析模塊對(duì)網(wǎng)頁文件進(jìn)行分析,得到URL與網(wǎng)頁分級(jí)內(nèi)容的映射關(guān)系,存儲(chǔ)到數(shù)據(jù)庫,根據(jù)抓取頁面不斷迭代更新數(shù)據(jù)庫中的映射關(guān)系庫;PA模塊將原始數(shù)據(jù)解析成五元組流輸入TC模塊,TC模塊將輸入的五元組流做業(yè)務(wù)流標(biāo)記,生成特定業(yè)務(wù)流輸入DPI模塊,DPI模塊將特定業(yè)務(wù)流轉(zhuǎn)化成DPI事件,將DPI事件與映射關(guān)系庫匹配,完成DPI事件統(tǒng)計(jì)。
本發(fā)明充分利用Hadoop分布式計(jì)算平臺(tái)的開源、高效、穩(wěn)定、容錯(cuò)性高等優(yōu)勢,將基于網(wǎng)絡(luò)爬蟲的深度包檢測技術(shù)集成到Hadoop平臺(tái),達(dá)到高效的流量深度分析的目的。本發(fā)明能夠解析較深層次的網(wǎng)絡(luò)協(xié)議,具有較高的匹配準(zhǔn)確率,處理速度快,解決了大數(shù)據(jù)深度分析中精確、速度問題。
附圖說明
附圖1本發(fā)明基于Hadoop平臺(tái)深度包檢測系統(tǒng)框架示意圖;
附圖2本發(fā)明基于Hadoop平臺(tái)深度包檢測系統(tǒng)網(wǎng)絡(luò)爬蟲部分流程圖;
附圖3本發(fā)明基于Hadoop平臺(tái)深度包檢測系統(tǒng)深度包檢測部分流程圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410317160.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種實(shí)現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲(chǔ)模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計(jì)算的Hadoop平臺(tái)度量方法
- 云環(huán)境中模型驅(qū)動(dòng)的Hadoop部署方法
- 基于麒麟云計(jì)算平臺(tái)的Hadoop集群自動(dòng)化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲(chǔ)、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲(chǔ)介質(zhì)
- 一種文件型門衛(wèi)式存儲(chǔ)加密功能的Hadoop系統(tǒng)及其應(yīng)用方法





