[發明專利]基于去中心化應用加密流量特征的多場景分類方法及系統有效
| 申請號: | 202011159375.4 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112381119B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 李鎮;李真真;王宇;熊剛;扶佩佩;楊青婭;崔明鑫 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F18/2431 | 分類號: | G06F18/2431;H04L9/40 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 余功勛 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 中心 應用 加密 流量 特征 場景 分類 方法 系統 | ||
1.一種基于去中心化應用加密流量特征的多場景分類方法,其步驟包括:
1)收集去中心化應用的加密流量,并對各加密流量標記應用、用戶行為和通用用戶行為的分類標簽;
2)根據分類目標和分類標簽,將提取的加密流量的應用特征、用戶行為特征和通用用戶行為特征,分別輸入應用分類模型、用戶行為分類模型和通用用戶行為分類模型,得到相應的分類;其中,所述應用特征包括:時間序列和包長分布;所述用戶行為特征包括:去中心化應用特征、行為敏感特征和優化特征;所述通用用戶行為特征包括:去中心化應用特征、通用行為敏感特征、統計特征和序列特征;所述去中心化應用特征包括:時間序列和包長分布;所述行為敏感特征包括:字節分布、包到達總時間、包到達平均時間;所述優化特征包括:優化后的包到達間隔序列;所述通用行為敏感特征包括:字節分布;所述統計特征包括:上下行包數、第一個包到達時間、包到達間隔序列、字節速率變化和包速率;所述序列特征包括:上行時間序列和下行時間序列;通過以下步驟得到應用分類模型、用戶行為分類模型和通用用戶行為分類模型:
a)收集已知去中心化應用、已知用戶行為分類和已知通用用戶行為分類的樣本加密流量,并對各樣本加密流量標記應用、用戶行為和通用用戶行為的分類標簽;
b)針對不同的分類標簽,提取樣本加密流量的樣本應用特征、樣本用戶行為特征和樣本通用用戶行為特征;
c)對樣本應用特征、樣本用戶行為特征和樣本通用用戶行為特征,分別進行機器學習分類器訓練,得到應用分類模型、用戶行為分類模型和通用用戶行為分類模型。
2.如權利要求1所述的方法,其特征在于,提取加密流量的應用特征、用戶行為特征和通用用戶行為特征之前,對加密流量進行預處理;所述預處理包括:過濾沒有Client Hello包或無SNI字段的加密流量、過濾各加密流量中的ACK包和重傳數據包。
3.如權利要求1所述的方法,其特征在于,將提取的加密流量的應用特征、用戶行為特征和通用用戶行為特征分別輸入應用分類模型、用戶行為分類模型和通用用戶行為分類模型之前,對應用特征、用戶行為特征和通用用戶行為特征進行預處理;所述預處理包括:去除全零列和歸一化。
4.如權利要求1所述的方法,其特征在于,所述已知去中心化應用包括:市場類、社交類、財產類、交易類和媒體類;所述市場類包括:Superrare、Thomas Crown Art和Knownorigin;所述社交類包括:Editional、Cryptoboiler、Ethlance和Crowdholding;所述財產類包括:John Orion Young和Staybit;所述交易類包括:Latium;所述媒體類包括:Viewly;所述已知用戶行為分類包括:評論、關注、點贊、搜索、加入購物車、租用、發表問題、提交求職申請、提交招聘申請、看視頻、上傳視頻、查看用戶詳細信息、查看物品詳細信息、瀏覽商店和瀏覽活動;所述已知通用用戶行為分類包括:打開去中心化應用、瀏覽市場、查看詳細信息、關注、點贊、提交申請表、搜索、查看用戶首頁、查看去中心化應用中活動、加入購物車、看視頻、評論、查看去中心化應用介紹、刷新購物車和其他行為。
5.如權利要求1所述的方法,其特征在于,所述機器學習分類器包括:決策樹模型、梯度提升決策樹模型或隨機森林模型。
6.如權利要求5所述的方法,其特征在于,根據分類的準確率和召回率,選擇決策樹模型、梯度提升決策樹模型或隨機森林模型。
7.如權利要求6所述的方法,其特征在于,得到分類的準確率和召回率的方法包括:十折交叉驗證方法。
8.一種基于去中心化應用加密流量特征的多場景分類系統,包括:
1)去中心化應用流量收集模塊,用以收集加密的去中心化應用流量,并對各加密流量標記應用、用戶行為和通用用戶行為的分類標簽;
2)多場景下加密流量特征提取模塊,用以根據分類目標和分類標簽,提取加密流量的應用特征、用戶行為特征和通用用戶行為特征;
3)多場景下加密流量分類模塊,用以將提取的加密流量的應用特征、用戶行為特征和通用用戶行為特征,分別輸入應用分類模型、用戶行為分類模型和通用用戶行為分類模型,得到相應的分類;其中,所述應用特征包括:時間序列和包長分布;所述用戶行為特征包括:去中心化應用特征、行為敏感特征和優化特征;所述通用用戶行為特征包括:去中心化應用特征、通用行為敏感特征、統計特征和序列特征;所述去中心化應用特征包括:時間序列和包長分布;所述行為敏感特征包括:字節分布、包到達總時間、包到達平均時間;所述優化特征包括:優化后的包到達間隔序列;所述通用行為敏感特征包括:字節分布;所述統計特征包括:上下行包數、第一個包到達時間、包到達間隔序列、字節速率變化和包速率;所述序列特征包括:上行時間序列和下行時間序列;
通過以下步驟得到應用分類模型、用戶行為分類模型和通用用戶行為分類模型:
a)收集已知去中心化應用、已知用戶行為分類和已知通用用戶行為分類的樣本加密流量,并對各樣本加密流量標記應用、用戶行為和通用用戶行為的分類標簽;
b)針對不同的分類標簽,提取樣本加密流量的樣本應用特征、樣本用戶行為特征和樣本通用用戶行為特征;
c)對樣本應用特征、樣本用戶行為特征和樣本通用用戶行為特征,分別進行機器學習分類器訓練,得到應用分類模型、用戶行為分類模型和通用用戶行為分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011159375.4/1.html,轉載請聲明來源鉆瓜專利網。





