[發明專利]一種多分類器自適應融合的HTTPS加密流量分類方法有效
| 申請號: | 202110306256.5 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN113141349B | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 陳鐵明;呼延東鐸;蔣建可;宋琪杰;顧國民 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;H04L47/2441;G06K9/62;G06F21/60;H04L67/02 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分類 自適應 融合 https 加密 流量 方法 | ||
1.一種多分類器自適應融合的HTTPS加密流量分類方法,其特征在于,所述方法包括以下步驟:
步驟1、獲取關于HTTPS惡意攻擊流量的數據集,進行解析并構建連接4元組,即源IP、目標IP、目標端口和協議;
步驟2,基于步驟1所提取的數據集進行隨機化后提取訓練樣本和測試樣本的特征,包括連接特征、SSL特征和證書特征;
步驟3,以步驟2所得分量訓練子數據集和分量測試子數據集訓練樣本訓練并調整分量分類器參數直到分量分類器達到一個較好的效果,然后采用訓練后的分量分類器對步驟2所得待測子數據集S′t進行分類;所述分量分類器包括基于一對多構建的SVM分類器、基于決策樹的分類器、基于k最近鄰算法KNN的分類器;
步驟4,計算各分量分類器的每個類別的判別結果在每個待識別樣本最終類別結果的權值;標記需要進行結果融合的分類器集合為R={R1,R2,R3},其中R1,R2,R3分別表示SVM分類器、決策樹分類器、KNN分類器;任一分類器標記為Ru,u的取值為1、2、3,計算每個待識別樣本的各分量分類器的總權值;
步驟5,根據步驟3各分量分類器所得分類結果及步驟4所得各分量分類器在最終分類判別結果所占權值進行加權分類,得到最終融合分類器判別分類p,計算公式如下:
步驟6,以步驟5所得融合分類器的結果,以最大測量值原則作為融合決策規則,得到融合分類器對每個待測樣本的最終分類結果;
所述步驟2中,各類特征詳細信息如下所示:
所述連接特征是來自連接記錄的特征,描述與證書和加密無關的通信流的常見行為;
所述SSL特征是來自SSL記錄的特征,描述了SSL握手和加密通信的信息;
所述證書特征是來自證書記錄的特性,描述了web服務人員在SSL握手期間提供給我們的證書的信息;
設數據集為S={xt,yi}(1≤t≤N,1≤i≤m),其中xt指樣本屬性,yi指對應的標簽數據,即該條數據對應于第i個分類,N是數據集總樣本數,m是分類總數;同時,xt={t1,…,tα,tα+1,…,tβ,tβ+1,…,tγ},表示每個訓練樣本xt擁有γ維特征,其中1-α維特征表示連接特征,α+1-β維特征表示SSL特征,β+1-γ維特征表示證書特征;
分別基于1-α維特征、α+1-β維特征和β+1-γ維特征取出基于連接特征、SSL特征、證書特征的三類特征的子數據集Scon,Sssl,Scer,
步驟2.1,分別對Scon,Sssl,Scer使用Z-score標準化方法進行歸一化,并合并生成新的全體特征數據集S′,歸一化步驟及公式如下:
如上,以子數據集Scon為例,表示該子數據集所有變量的平均數,σ為數據集的標準差,M為子數據集所包含的特征維數,分量子數據集與完整數據集的數據數量一樣,均為N,分別計算分量子數據集的平均數、標準差,然后根據如下公式對子數據集進行Z-score標準化,
然后,根據歸一化完成的三個分量子數據集進行橫向拼接合并,并結合原數據集中每條數據的標簽生成N×(γ+1)維新數據集S′,即
S′=Scon+Sssl+Scer
步驟2.2,按照7∶2∶1從數據集S′中取出訓練子數據集、測試子數據集、待檢測子數據集S′t,進而,根據訓練子數據集及測試子數據集分別得到分量訓練子數據集S′con,S′ssl,S′cer和分量測試子數據集S″con,S″ssl,S″cer;
所述步驟3中,,包括以下操作:
用訓練樣本的連接特征子數據集S′con、S″con訓練基于SVM算法的多分類器,用訓練后所得的SVM分類器對待測子數據集S′t的連接特征進行分類,獲得SVM分類器對基于連接特征所判定的分類的概率輸出,記為pcon={pj1,…,pji,…,pjm}(1≤i≤m,1≤j≤q),m為類別總數量,q為待測樣本總數量,pji表示第j個驗證樣本屬于類別ci的概率;
用訓練樣本的SSL特征子數據集S′ssl、S″ssl訓練基于KNN的分類器,用訓練后所得到的KNN分類器對待測子數據集S′t的SSL特征進行分類,得到KNN分類器對基于SSL特征所判定的分類的概率輸出,記為pssl={pj1,…,pji,…,pjm},1≤i≤m;
用訓練樣本的證書特征子數據集S′cer、S″cer訓練基于決策樹的分類器,用訓練后的決策樹分類器對待測子數據集S′t的證書特征進行分類,得到決策樹分類器對基于證書特征所判定的分類的概率輸出,記為Pcer={pj1,…,pji,…,pjm},1≤i≤m;
所述步驟4包括以下步驟:
步驟4.1,首先從數據集S′中去除待檢測子數據集S′t后獲得數據集S″,然后將m類重新組合為2類,分別是類別ci(1≤i≤m)、co,其中類別co由除類別ci外m-1個類別合并而成;
S″=S′-S′t
S″={xt,yo},1≤t≤N,1≤o≤2
步驟4.2,使用基于互信息的特征選擇法計算數據集S″的γ維特征進與分類結果的相關度,得到每一維特征在類別{ci,co}這個二分類情況下的相關度we,1≤e≤γ,即認為該維特征對區分類別ci的相關度,進而,分別計算連接特征、SSL特征和證書特征相對于類別ci的權重conweight,sslweight,cerweight,亦為各分量分類器Ru在融合結果中的權重,計算公式如下:
步驟4.3,重復4.1、4.2步驟m次,得到表示相對于每一個分類ci,連接特征、SSL特征和證書特征所對應的權值。
2.如權利要求1所述的一種多分類器自適應融合的HTTPS加密流量分類方法,其特征在于,所述步驟1中,構建過程如下:
步驟1.1,使用BroIDS對數據集的pacp文件進行深度包解析,獲取通信日志、SSL協議日志、證書日志文件;
所述通信日志每一行聚合一組數據包,并描述兩個端點之間的連接,連接記錄包含IP地址、端口、協議、連接狀態、數據包數量和標簽信息;
所述SSL協議日志描述了SSL/TLS握手和加密連接建立過程,包含SSL/TLS版本、使用的密碼、服務器名稱、證書路徑、主題和證書發行者;
所述證書日志的每一行都是一個證書記錄,用來描述證書信息,如證書序列號、常用名稱、時間有效性、主題、簽名算法、以位為單位的密鑰長度;
步驟1.2,通過連接日志中的唯一鍵,SSL協議日志中的唯一鍵,ssl協議日志中的證書id鍵值,證書日志文件中的id鍵值進行連接,構建4元組,即源IP、目標IP、目標端口和協議,并根據聚合結果對4元組在三個日志文件中的對應各項特征進行提取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110306256.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于智能控制的翻轉機構
- 下一篇:一種高牢度分散染料組合物和染料制品





