[發明專利]互聯網流量分級分類方法無效
| 申請號: | 201110351826.9 | 申請日: | 2011-11-09 |
| 公開(公告)號: | CN102394827A | 公開(公告)日: | 2012-03-28 |
| 發明(設計)人: | 李君;朱健蓉;斯科憶;張萊蕾;張韡珺 | 申請(專利權)人: | 浙江萬里學院 |
| 主分類號: | H04L12/56 | 分類號: | H04L12/56;H04L29/06 |
| 代理公司: | 寧波市鄞州甬致專利代理事務所(普通合伙) 33228 | 代理人: | 代忠炯 |
| 地址: | 315100 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 流量 分級 分類 方法 | ||
技術領域:
本發明涉及互聯網流量分類技術領域,具體講是一種互聯網流量分級分類方法。
背景技術:
互聯網流量的精確分類與識別是網絡流量工程、網絡管理與安全監測、網絡設計與規劃等網絡行為的前提和基礎。高效、準確、實時地識別出互聯網流量對于分析網絡發展趨勢、提供服務質量(QoS)保證、實現動態訪問控制和路由決策、進行合法有效的網絡管理和控制、檢測網絡異常行為與提高網絡安全性等都有很重要的現實意義,同時為互聯網的進一步發展提供自適應能力。
目前,互聯網流量分類方法主要有以下幾種:
基于端口的流量識別方法,這種分類方法操作簡單、效率高、能實現早期檢測,但不能識別大量出現的動態端口和偽裝端口的應用。特別是,新一代的對等網絡(P2P)應用綜合了很多防火墻旁路策略,如動態端口分配和中繼節點來避免被檢測或過濾,端口匹配法識別能力有限,只能產生不精確的應用分類結果。
深度數據包檢測法(DPI),易于理解、維護簡單、分類精度高、具有細粒度分類應用能力,但識別開銷大、DPI特征庫更新工作量大、對應用層載荷加密的流量識別能力有限、對新應用適應性差、在各監測點的靈活部署能力差。
流量特征分析法,不依賴于端口與應用層載荷、具有發現新流量特征的能力,但需要大量離線分析,甚至要涉及多個流,占用較多的內存,大部分方法的識別精度相對不高,適用于粗粒度流量識別。
基于機器學習的流統計特性識別法,可擴展性好、能識別加密數據流、無監督或半監督學習還能智能地發現未知應用流量,采用的分類器可擴展性和靈活性好、且無需經常更新,但流量類別細分能力不足、標簽流獲取困難。
由于近年來網絡技術的發展,網絡應用越來越豐富,網絡內容種類層出不窮,特別是對等網絡技術的發展,使得網絡用戶規模、應用類型和流量均呈爆發式增長。同時,互聯網流量日趨復雜、動態、多變;而且越來越多的P2P應用以及惡意網絡行為采用動態端口、偽裝端口、應用層加密、分組填充等多種規避手段來逃避法律責任和躲避監測。目前,僅依賴于單個分類方法幾乎不可能達到互聯網流量分類的高效、準確、智能、實時地識別互聯網流量,并能覆蓋所有網絡應用,具有較好的可擴展性,即識別出未知流量和加密流量,并具有好的靈活性以適用于各個網絡監測點的要求。
發明內容:
本發明要解決的技術問題是,克服現有的技術缺陷,提供一種能夠智能、精確、實時、有效地識別網絡流量,具有好的完整性和可擴展性,能夠滿足不同應用目標和分類粒度的互聯網流量分類需求的互聯網流量分級分類方法。
本發明的技術解決方案是,提供一種互聯網流量分級分類方法,它包括以下步驟:
A、粗粒度分類:采用基于機器學習的流統計特性法快速分類網絡流量,把網絡流量分成不同特征的應用類別類,粗粒度分類區分出的流量若需要使用,就直接輸出,若需要進一步分類,則進入下一步。
B、細粒度分類:在粗粒度分類區分出的應用類別類中進行再一次分類,步驟如下:
1、采用端口匹配識別法進行分類,輸出已分類的流量,
2、將上步完成后剩下的未分類流量,根據DPI流量特征標簽庫執行DPI分析識別法,分離出各應用流量,并輸出,
3、對于上步完成后剩下的加密和未知流量,采用半監督機器學習算法分離并輸出加密流量,余下的標識為未知的網絡應用流量,
4、對標識為未知的網絡應用流量,按分組長度執行基于最長公共子序列的應用層特征標簽自動提取,
5、將上步中自動提取的新特征標簽經確認補充到DPI特征標簽庫,輸出已確認應用類型并添加標記的該未知應用流量。實現DPI特征的自動、智能更新與維護。
所述步驟4中,按分組長度執行基于最長公共子序列的應用層特征標簽自動提取的提取方法步驟如下:
(1)目標應用流量按五元組聚集成流,并置入流池,所述五元分別為源地址、目標地址、源端口、目標端口、傳輸層協議;
(2)對流池中的目標應用流量根據{流持續時間,流的總字節數,分組到達時間間隔最大值,分組凈荷長度最小值}所構成的向量采用k-means聚類網絡應用流,去除噪聲流;
(3)對同一網絡應用流的平均分組長度用X-Means算法聚類,然后分別在聚類的樣本流中各自提取應用層特征;
(4)確定每流有效檢測分組數Npacket及分組凈荷要檢查的字節數Nbyte,然后截取應用流中的相應凈荷信息組裝成字符串,在預處理得到的k個字符串中求取最長公共子序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江萬里學院,未經浙江萬里學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110351826.9/2.html,轉載請聲明來源鉆瓜專利網。





