[發明專利]一種基于決策樹的HTTPS加密流量分類方法在審
| 申請號: | 201911034290.0 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN111030941A | 公開(公告)日: | 2020-04-17 |
| 發明(設計)人: | 朱國勝;鄒潔;劉飛鴻;祁小云;曹揚晨 | 申請(專利權)人: | 武漢瑞盈通網絡技術有限公司;武漢鴻名科技有限公司;湖北大學;賽爾網絡有限公司 |
| 主分類號: | H04L12/851 | 分類號: | H04L12/851;H04L29/08;G06F16/35;G06K9/62 |
| 代理公司: | 武漢帥丞知識產權代理有限公司 42220 | 代理人: | 劉丹;朱必武 |
| 地址: | 430000 湖北省武漢市東湖新技術開發*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 決策樹 https 加密 流量 分類 方法 | ||
1.一種基于決策樹的HTTPS加密流量分類方法,其特征在于,所述方法包括如下步驟:
(1)通過網絡封包分析軟件對HTTPS加密流量進行抓取,獲取SSL/TLS握手成功后加密傳輸的HTTPS應用數據包,即待分類數據包;
(2)對待分類數據包進行數據包標記,同時,通過特征工程對待分類數據包進行預處理,篩選出本方法數據集包含的15項網絡流屬性,同時利用已經確定的標簽數據,提取出決策樹樣本全集;
(2.1)將Wireshark對網站進行分模塊采集的數據包加上標簽字段作為該樣例的真實標記即該樣例已經確定的標簽數據;
(2.2)將Wireshark捕獲的pcap數據包解析成json數組并存入表格文件中,通過數據預處理將屬性值進行規范化,去掉網絡流數據中屬性值相同的特征,對缺失值進行均值處理;
(2.3)將用十六進制表示的tcp有效荷載及應用數據轉換成相應的字符串長度;
(2.4)對網絡數據流中的每個屬性進行具體含義的分析,選取網絡數據流中的時間相關特征、網絡數據包中與字節長度相關的分組長度特征及端口特征得到了本方法數據集包含的15項網絡流屬性;
(3)將樣本全集根據合適比例劃分為訓練集和測試集,基于決策樹算法,將該方法選取的15項網絡流屬性作為輸入向量并通過訓練集建立決策樹分類模型,實現目標網站模塊內容分類;
(3.1)HTTPS加密網絡數據流的樣本全集為:S={(x1,y1),(x2,y2),…(xn,yn)},其中xi指樣本屬性,yi指對應的標簽數據,i表示對應的樣本序號;
(3.2)引入C4.5決策樹算法模型,通過計算每個屬性的信息增益率,從候選劃分屬性中找出信息增益高于平均水平的屬性,再從中選擇增益率最高的屬性;
(3.3)使用訓練集訓練得到HTTPS加密流量分類模型;
(4)通過測試集對決策樹分類模型進行有效評估,從而完善決策樹分類模型,實現目標網站模塊內容的精確分類;
(4.1)樣本全集S={(x1,y1),(x2,y2),…(xn,yn)},其中yi表示xi的實際標記,定義決策樹分類模型預測的結果是pi;
(4.2)定義分類正確的樣本數占樣本總數的比例精度:
(4.3)令TPi表示實際類型為i的樣本中被分類模型預測正確的樣本數,FPi表示實際類型為非i的樣本中被分類模型誤判為類型i的樣本數量,FNi表示實際類型為i的樣本中被分類模型誤判為其他類型的樣本數,則類型i的查準率P和查全率R分別定義為:和
(4.4)通過上述定義的模型性能評估指標,使用測試集對決策樹分類模型進行評估。
2.如權利要求1所述的基于決策樹的HTTPS加密流量分類方法,其特征在于:所述方法包括:對采集的數據包進行分析,選取15項網絡流屬性,將選取的字符型的屬性轉換為數字型屬性進行數據預處理,最后將數據作為決策樹的輸入向量;選取的15項網絡流屬性如下表所示:
表1:網絡流屬性說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢瑞盈通網絡技術有限公司;武漢鴻名科技有限公司;湖北大學;賽爾網絡有限公司,未經武漢瑞盈通網絡技術有限公司;武漢鴻名科技有限公司;湖北大學;賽爾網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911034290.0/1.html,轉載請聲明來源鉆瓜專利網。





