[發明專利]一種數據包頻度分析的網絡代理加密流量特征提取方法在審
| 申請號: | 201811176875.1 | 申請日: | 2018-10-10 |
| 公開(公告)號: | CN109286576A | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 沈蒙;張晉鵬;祝烈煌;徐恪 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | H04L12/851 | 分類號: | H04L12/851;H04L12/24;G06K9/62;H04L29/06 |
| 代理公司: | 北京理工正陽知識產權代理事務所(普通合伙) 11639 | 代理人: | 唐華 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據包 加密流量 頻度分析 機器學習 特征提取 網絡代理 時間戳 聚類 網絡服務安全 詞頻 分類準確率 逆文檔頻率 大數據包 分類算法 分類效果 加密網絡 結果抽取 聚類結果 流量分類 頁面元素 區分度 引入 類簇 網頁 | ||
1.一種數據包頻度分析的網絡代理加密流量特征提取方法,其特征在于:包括如下步驟:
步驟1、基于數據包頻度分析結果抽取數據包;
其中,抽取數據包具體為:將數據包頻度分析結果中區分度大的數據包抽取出來;
其中,區分度大的數據包是指詞頻-逆文檔頻率不小于0.00001的數據包;
步驟1又包括如下子步驟:
步驟1.1對捕獲到的數據包進行數據包編碼,得到編碼后數據包;
其中,捕獲到的數據包為TCP數據包,用于區分TCP數據包的標志位有[SYN]、[SYN,ACK]、[ACK]、[PSH,ACK]和[FIN,ACK];
其中,[SYN]表示客戶端和服務器之間建立TCP連接時的SYN消息,[SYN,ACK]表示客戶端和服務器建立連接時的服務器的應答,[ACK]表示收到消息的確認,[PSH,ACK]表示發出消息的同時對收到的消息進行確認,[FIN,ACK]表示通信雙方斷開連接;
步驟1.2計算步驟1.1輸出的編碼后數據包的詞頻tfi,j,tfi,j代表第i種數據包在第j類網頁流量中的比例,遍歷i和j,又具體包括如下子步驟:
步驟1.2A統計第j類網頁流量中第i種數據包的個數ni,j;
步驟1.2B統計第j類網頁中的所有數據包個數總和為∑knk,j;
步驟1.2C用第i種數據包的個數ni,j除以第j類網頁的所有數據包個數,即通過(1)計算第i種數據包在第j類網頁中的詞頻tfi,j:
其中,k代表第j類網頁中的數據包種數;
步驟1.3計算步驟1.1輸出的編碼后數據包的逆文檔頻率;
特定數據包i在網頁j流量中的計數為|{j:ti}∈dj|,所有網頁流量總數為|D|,通過(2)計算第i種數據包的逆文檔頻率idfi:
其中,log是以10為底的對數操作;
步驟1.4根據步驟1.2和步驟1.3計算得到的詞頻tfi,j、逆文檔頻率idfi,通過(3)計算第i種數據包在第j類網頁中的詞頻-逆文檔頻率TIi,j:
TIi,j=tfi,j×idfi (3)
步驟1.5根據步驟1.4得到的詞頻-逆文檔頻率TIi,j,去掉詞頻-逆文檔頻率小于0.00001的數據包,選擇剩下的數據包用作分類;
步驟2、數據包長度-時間戳之差聚類,生成聚類結果,具體為:
步驟2.1提取網頁流量中每條流的第一個上行[PSH,ACK]數據包的長度lp,所有流的第一個上行[PSH,ACK]數據包長度匯集在一個文件中;
步驟2.2提取每條流的第一個上行[PSH,ACK]數據包的時間戳信息tu,接著提取每條流的第一個下行[PSH,ACK]數據包的時間戳信息td;再將下行[PSH,ACK]數據包的時間戳信息td減去上行的時間戳信息tu的結果作為時間戳之差t,保存所有網絡流的時間戳之差;
步驟2.3將每條流中的第一個上行[PSH,ACK]數據包的長度和時間戳之差保存在一個文件中供聚類使用;
步驟2.4遍歷簇數m從2到qmax,將步驟2.1提取的數據包長度lp和時間戳之差t進行聚類,生成聚類結果Cm;
其中,qmax代表最大的類簇數量;
qmax=J×3 (4)
其中,J為要分類網頁的類數;
其中,聚類采用K-Means方法;
聚類結果,記為Cm={cent1,…,centm},centm代表第m個類簇中心的中心值;
其中,每條流中要參與聚類的元素為(lp,t),兩個聚類點clupa,clupb之間的距離dis(clupa,clupb)采用公式(5)計算:
步驟3計算最優類簇數量,具體為:
步驟3.1遍歷ω基于(6)計算聚類點clup與類簇中心centω的距離和SSE(ω):
其中,P代表聚類點clup的個數;m的取值范圍為2到qmax;
步驟3.2選擇步驟3.1計算的最小SSE(ω)對應的類簇中心數量為最優類簇數量,此最小的SSE(ω)記為SSE(ωopt),此最小SSE(ω)對應的最優類簇中心記為Cm(ωopt);
步驟4計算加密流量特征,具體包括如下子步驟:
步驟4.1計算步驟1中提取出來的區分度大的數據包的統計特征值(max,min,mean,…,var);
步驟4.2計算每條流中上行第一個[PSH,ACK]數據包的大小與時間戳之差形成的二元組與步驟3生成的最優類簇中心Cm(ωopt)之間的距離
其中,步驟4.1的統計特征值(max,min,mean,…,var)與步驟4.2的二元組與類簇中心的距離作為加密流F的特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811176875.1/1.html,轉載請聲明來源鉆瓜專利網。





