[發明專利]一種數據包頻度分析的網絡代理加密流量特征提取方法在審
| 申請號: | 201811176875.1 | 申請日: | 2018-10-10 |
| 公開(公告)號: | CN109286576A | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 沈蒙;張晉鵬;祝烈煌;徐恪 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | H04L12/851 | 分類號: | H04L12/851;H04L12/24;G06K9/62;H04L29/06 |
| 代理公司: | 北京理工正陽知識產權代理事務所(普通合伙) 11639 | 代理人: | 唐華 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據包 加密流量 頻度分析 機器學習 特征提取 網絡代理 時間戳 聚類 網絡服務安全 詞頻 分類準確率 逆文檔頻率 大數據包 分類算法 分類效果 加密網絡 結果抽取 聚類結果 流量分類 頁面元素 區分度 引入 類簇 網頁 | ||
本發明涉及一種數據包頻度分析的網絡代理加密流量特征提取方法,屬于機器學習以及網絡服務安全領域。包括如下步驟:步驟1、基于數據包頻度分析結果抽取數據包;步驟2、數據包長度?時間戳之差聚類,生成聚類結果;步驟3、計算最優類簇數量;步驟4、計算加密流量特征。所述方法引入了基于詞頻逆文檔頻率的區分度較大數據包,比直接使用所有數據包更有明顯的區分作用;能作用于任何機器學習分類算法上,分類準確率高;引入了數據包長度和時間戳之差聚類,可進一步提升URL不同頁面元素相同的網頁的分類效果;與現有的加密網絡流量分類和識別方法相比具有更高的準確性。
技術領域
本發明涉及一種數據包頻度分析的網絡代理加密流量特征提取方法,尤其涉及一種基于數據包頻度與數據包長度和時間戳之差聚類的機器學習Shadowsocks代理的加密流量特征提取方法,旨在為識別Shadowsocks加密過后的網頁流量提供區分度大的流量特征,屬于機器學習以及網絡服務安全領域。
背景技術
流量是網絡信息傳輸的載體。Shadowsocks是一種基于SOCKS5的加密代理技術,作用在傳輸層和應用層之間為用戶提供代理服務。本發明所指流量識別技術是對經過Shadowsocks加密過后的流量進行細粒度的分類識別。通過對Shadowsocks流量進行細粒度的分類識別,可以對用戶的上網習慣進行分析,也可以及時發現惡意頁面的流量實施有效的攔截和屏蔽,保障網絡安全。在實際應用中,通過將該類識別功能部署在路由器等網關節點中,可以及早發現并屏蔽惡意頁面的流量,確保網絡安全。
現有的流量識別方法主要包含兩大類:明文流量識別和加密流量識別。在明文流量識別中采取的主要技術是深度數據包檢測和端口檢測。隨著加密技術的采用和跳變端口技術的采用,網絡通信過程中的數據包被加密,深度數據包檢測技術和端口檢測技術逐漸失去了效用。現在的研究熱點主要集中在加密流量識別中。流量的加密技術主要有兩種:SSL/TLS(安全套接層/傳輸層安全)協議和基于Socks5的加密代理協議。目前針對標準SSL/TLS加密后的流量識別技術研究比較充分,而針對基于Socks5的加密代理流量的識別則不是很充分。Shadowsocks是一種基于Socks5的加密代理技術。
在Shadowsocks加密網絡流量分類和識別方面,可檢索到的關聯最大的兩項專利為:
(1)現有文獻提出兩種分類Secure Shell(SSH)協議加密后的流量識別方法。研究者用到的數據包分類特征為數據包的大小和數據包的方向。通過對數據包大小和方向向量化表示,作者采用高斯混合模型(Gaussian Mixture Models,GMM)和支持向量機(SupportVector Machines,SVM)對SSH協議加密過后的網絡流量進行分類。該種分類方法的識別是粗粒度識別,可以對應用層的不同協議進行識別,如識別HTTP、POP3和SEMULE等不同應用層協議的流量。
(2)已有專利提出了一種在背景流量中檢測Shadowsocks流量的方法。研究者將總的數據包個數、流出數據包個數、流入數據包個數、傳輸時間、流入數據包的比例、流出數據包的比例、最大數據包長度、平均數據包長度等信息進行特征提取,將提取好的特征值放入隨機森林(Random Forest)分類器中進行分類可以從背景流量中有效識別出Shadowsocks流量,識別的準確率為85%。這種方法只是從背景流量中識別Shadowsocks流量,不能進行進一步的細粒度的流量分類。
綜上所述,在SSH流量分類領域有對SSH粗粒度的分類,而對使用Shadowsocks加密后的代理流量識別領域,目前僅有從背景流量中識別Shadowsocks流量的方法,還沒有對Shadowsocks加密過后的流量進行細粒度識別的方法。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811176875.1/2.html,轉載請聲明來源鉆瓜專利網。





