[發明專利]一種基于二級決策樹的P2P協議識別方法有效
| 申請號: | 201210228876.2 | 申請日: | 2012-07-02 |
| 公開(公告)號: | CN103532908A | 公開(公告)日: | 2014-01-22 |
| 發明(設計)人: | 薛一波;張洛什 | 申請(專利權)人: | 清華大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 韓國勝 |
| 地址: | 100084 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 二級 決策樹 p2p 協議 識別 方法 | ||
技術領域
本發明涉及P2P協議識別技術領域,尤其涉及一種基于二級決策樹的P2P協議識別方法。
背景技術
隨著高速網絡技術和多媒體技術的飛速發展,業界越來越多地提出了包括多媒體通信在內的綜合服務要求。然而,急速增長的用戶數量和流量不斷降低網絡性能,尤其是基于P2P協議的軟件(如迅雷、PPTV、BT等)所產生的流量占據了大量帶寬,嚴重影響關鍵業務的正常使用。P2P協議識別技術能夠監控P2P協議使用情況,管理P2P流量,保障關鍵業務,解決網絡擁塞,逐漸成為了國內外的研究熱點。
早期的P2P協議識別方法,通常判斷所獲取的網絡流數據包載荷中是否存在能夠代表P2P協議的固定關鍵字,因此,基于數據包載荷的P2P協議識別技術首先需要發現P2P協議中所包含的不變的、具有唯一代表性的關鍵字,之后利用高效的模式匹配及正則表達式匹配算法識別數據包中的關鍵字信息,以達到P2P協議識別的目的。然而,隨著P2P技術的日益發展,P2P協議的變化也日漸復雜,一方面采用隨機端口模式來提高系統效率,逃避檢測,另一方面則去掉能夠代表P2P協議的固定關鍵字,以便防止對P2P協議的檢測和監控,甚至一些對安全性能要求較高的P2P協議,采用加密協議的方法對通信內容進行加密,進一步阻止了對P2P協議進行發現。在這種情況下,尋找P2P協議的數據包載荷關鍵字的難度越來越大,最終導致基于數據包載荷的P2P協議識別技術嚴重失效。
近年來,基于統計特征的P2P協議識別技術逐漸成為業界關注的熱點。不同于基于數據包載荷的P2P協議識別技術,基于統計特征的P2P協議識別技術著眼于從網絡流中提取的統計特征信息,并利用這些統計特征所代表的內在特性實現P2P協議識別。基于統計特征的P2P協議識別技術利用P2P協議在數據傳輸過程中存在著其特有的網絡流統計特性的特點,以此來識別P2P協議,甚至能夠有效區分不同的P2P協議。
然而,隨著網絡技術的不斷發展,采用P2P協議的新型應用層出不窮,主要開始呈現兩個方面的變化。
一方面是統計特征的變化。P2P協議通常用于高速網絡數據傳輸,因此流量的統計特征不固定且變化較大,已有的基于統計特征的P2P協議識別方法對P2P協議的識別準確率并不高,識別效率也較差。
另一方面則是流量特性的變化。P2P協議在使用過程中通常會同時產生多個網絡流進行數據傳輸和通信,并且會與多個其他P2P節點互相進行交互,這種情況下,傳統的基于單一網絡流的協議識別技術已經不能對P2P協議進行有效識別,急需提出一種新的針對P2P協議所產生的多個網絡流情況的協議識別方法來提高協議識別的準確性和有效性,避免對網絡流的漏識別或錯誤識別。
合理利用P2P協議所產生的多個網絡流統計特征進行協議識別,不僅能夠極大地提升基于統計特征的P2P協議識別系統的性能,還能夠應對不斷增多的P2P協議及應用帶來的挑戰。然而,目前大多數基于統計特征的P2P協議識別方法僅是簡單地將大量的統計特征輸入到模型中進行訓練和檢測,并沒有合理的利用統計特征中蘊含的知識,影響了P2P協議識別系統的性能。特別是隨著P2P協議的廣泛應用,P2P協議識別系統需要處理更多的統計特征,使得基于統計特征的P2P協議識別技術面臨更大的挑戰。
發明內容
(一)要解決的技術問題
本發明所要解決的技術問題是:提供一種基于統計特征的P2P協議識別方法,能夠更好地利用蘊含在大量統計特征中的知識,提升基于統計特征的P2P協議識別系統的性能,應對迅速增多的P2P應用所帶來的挑戰。
(二)技術方案
為了解決上述問題,本發明提供了一種基于二級決策樹的P2P協議識別方法。本方法通過對P2P協議的通信過程及網絡流量的大量分析,將P2P協議和應用在使用過程中所產生的網絡流依據功能性的差別分成了5種不同的類型,每種類型均表示P2P協議中的一個可能出現的行為特征,利用這種行為特征所產生的統計特征,同時采用二級決策樹方法,能夠有效的識別P2P協議及應用。該方法首先對網絡流統計特征進行分類,然后根據其分類特點,訓練二級決策樹;在識別階段,首先利用第一級決策樹處理網絡流統計特征,然后將處理結果輸入到第二級決策樹進行處理并輸出識別結果。
本發明的基于二級決策樹的P2P協議識別方法包括步驟:
S1.獲得純凈的P2P協議流量和非P2P協議流量,并從網絡流量中提取一級網絡流統計特征集作為一級訓練集;
S2.根據步驟S1所提取的一級網絡流統計特征集分別訓練一、二級分類決策樹模型集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210228876.2/2.html,轉載請聲明來源鉆瓜專利網。





