[發明專利]一種面向隧道封裝的Tor流量識別方法有效
| 申請號: | 202310080343.2 | 申請日: | 2023-02-08 |
| 公開(公告)號: | CN115801467B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 顧曉丹;宋亞峰;楊明;趙哲淳 | 申請(專利權)人: | 東南大學 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;H04L69/164;H04L69/163;H04L12/46 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 許小莉 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 隧道 封裝 tor 流量 識別 方法 | ||
1.一種面向隧道封裝的Tor流量識別方法,其特征在于,該方法包括如下步驟:
S1.通過隧道封裝的Tor流量自動化采集:用Tcpdump流量抓取工具捕獲Tor瀏覽器通過隧道工具訪問流行站點的流量,所述隧道工具包括Shadowsocks、V2ray、Trojan、OpenVPN、Obfs4網橋中的任意一個或多個;
S2.Tor流量的使用協議判斷和特征提取:判斷自動化采集的Tor流量是否為UDP協議,如果為UDP協議,則從UDP流單個方向上提取Tor流量特征;如果為TCP協議,則進一步判斷是否為代理工具加網橋下的流量,如果僅為代理工具下的流量,則分別在Shadowsocks、V2ray、Trojan三種應用層代理轉發Tor流量時提取TCP連接單個方向上包長數量占比、頻率的Tor流量特征,如果為代理工具加網橋混淆下的Tor流量,則從一段時間窗口內一群TCP連接的狀態信息中提取代理加網橋混淆的Tor流量特征;
S3.自動化識別Tor流量:根據S2中提取的Tor流量特征,利用機器學習訓練SVM分類器實現從真實網絡流量中自動化識別Tor流量;
所述步驟S1具體包括:
S11.Tor瀏覽器及隧道工具的Docker容器封裝:將Tor瀏覽器和Shadowsock、V2ray、Trojan、OpenVPN、Obfs4網橋這些隧道工具封裝在Docker容器中,通過Docker容器在進程上實行網絡空間層面的隔離;
S12.利用流量抓取工具Tcpdump抓取Tor流量:Tor瀏覽器通過自搭建的Shadowsock、V2ray、Trojan、OpenVPN代理、VPN服務器同時結合Tor網橋連入Tor網絡,并通過Python腳本自動化訪問Alexa提供的Top?100站點產生大量Tor流量,Tcpdump通過監聽代理客戶端與服務器之間的網絡通信捕獲這些流量;
所述步驟S2具體包括:
S21.提取使用UDP協議的Tor流量特征:從S12所采集的Tor流量中識別出使用UDP協議的流量,從使用UDP協議的流量的單個方向上提取相關的Tor流量特征;
S22.提取僅在代理工具場景下使用TCP協議的Tor流量特征:先從S12所采集的Tor流量中識別出使用TCP協議的流量,在此基礎上進一步識別出僅在代理工具場景下的Tor流量,從中分別提取Shadowsocks、V2ray、Trojan三種應用層代理工具下的Tor流量特征;
S23.提取在代理工具加網橋場景下使用TCP協議的Tor流量特征:先從S12所采集的Tor流量中識別出使用TCP協議的流量,在此基礎上進一步識別出在代理工具加網橋場景下的Tor流量,從一段時間窗口內一群TCP連接的狀態信息中提取代理加網橋混淆的Tor流量特征;
步驟S21提取使用UDP協議的Tor流量特征具體包括:
S211.提取UDP有效載荷長度列表:OpenVPN客戶端轉發Tor流量會使用UDP協議,該隧道工具將獲取到的IP包加密和封裝后生成的UDP有效載荷長度滿足以下公式:
{(514×n+22×k)mod(M1-h1)}+h1???????????(1)
其中,n是Tor信元的數量,k是TLS數據包的數量,h1是OpenVPN協議的頭部長度再加上40字節長度的TCP和IP頭部,M1是OpenVPN客戶端與服務端鏈路之間的MSS長度,M1-h1為Tor客戶端到OpenVPN客戶端之間虛擬網絡鏈路的MSS長度;對任意一個UDP流中提取所有UDP載荷統計包長可得該UDP流單向UDP有效載荷長度列表len_list;
S212.刪除不利于提取特征的數據包:從S211提取的len_list中刪除包長最大為MSS大小的包和包長最小為h1大小的包,刪除這些包后生成新的len_list;
S213.生成包長度頻率映射關系:對S212中生成的新的len_list進行頻率統計,以獲得包長度頻率映射關系freq_map,映射中元素的鍵是包長度,值是其出現頻率;
S214.計算特定包長數量占比:由S213的包長度頻率映射關系freq_map計算出滿足公式(1)的包長數量占比;
S215.生成特征向量:由S214中計算的包長數量占比和S213包長度頻率映射關系構成特征向量并返回;
步驟S22提取僅在代理工具場景下使用TCP協議的Tor流量特征具體包括:
S221.提取TCP有效載荷長度列表:應用層代理轉發Tor流量時會使用TCP協議,對自身與Tor客戶端TCP連接中的數據包進行處理,對其中任意一個TCP連接中的所有TCP載荷統計包長可得該TCP連接的單向TCP有效載荷長度列表len_list;
S222.生成包長度頻率映射關系:對S221中的len_list進行頻率統計,以獲得包長度頻率映射關系freq_map,映射中元素的鍵是包長度,值是其出現頻率;
S223.計算特定包長數量占比:通過代理轉發的Tor流量所產生的TCP有效負載長度理應滿足如下計算公式:
(h2+514×n+22×k)mod?M2?????????(2)
其中,h2為代理協議的頭部及填充長度,與代理的種類及加密算法有關;M2是代理客戶端與代理服務器之間鏈路的MSS的大小,由S222的包長度頻率映射關系freq_map計算出滿足公式(2)的包長數量占比;
S224.生成特征向量:由S223中計算的包長數量占比和S222包長度頻率映射關系構成特征向量并返回;
步驟S23提取在代理工具加網橋場景下使用TCP協議的Tor流量特征具體包括:
S231.識別被網橋插件和代理工具封裝的Tor流量:啟用Obfs4網橋插件后,Tor瀏覽器產生的流量被網橋插件修改并封裝,之后通過代理工具選擇最合適的網橋節點建立TCP連接后并發送封裝后的數據,此時Tor瀏覽器行為會表現為短時間內向同一個IP的同一個端口發起多個連接;
S232.提取代理工具加網橋混淆下的Tor流量特征:從一段時間窗口內一群TCP連接的狀態信息中提取代理加網橋混淆的Tor流量特征,代理加網橋混淆的Tor流量特征包括:香農熵、相關TCP連接之間平均間隔、一條連接中數據包平均時間間隔、一條連接中非零數據包比例、一條連接中數據包數量與所有相關連接中總數據包的比值、相關連接的加權平均包長、一條連接中數據包長度平均值這七個特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310080343.2/1.html,轉載請聲明來源鉆瓜專利網。





