[發明專利]一種面向加密流量識別的樣本自動標定方法有效
| 申請號: | 201810897782.1 | 申請日: | 2018-08-08 |
| 公開(公告)號: | CN108881305B | 公開(公告)日: | 2020-04-28 |
| 發明(設計)人: | 馬小博;師馬瑋;焦洪山;安冰玉;趙延康;李劍鋒;彭嘉豪 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/08;H04L12/851;H04L9/32 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 徐文權 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 加密 流量 識別 樣本 自動 標定 方法 | ||
本發明公開了一種面向加密流量識別的樣本自動標定方法,提出基于TCP特性的流量拆分方法,從劃分不同的應用程序為出發點,將流量拆分為多個不同的樣本,借助代理服務器端的日志信息對流量數據進行解析和拆分,從而實現響應網絡行為與流量數據的對應關系,即實現分類學習中的流量數據標定。本方法充分利用了應用層通信協議TCP的相關知識和代理服務器端的日志信息,可應用于真實場景下的加密流量識別。
技術領域
本發明屬于網絡安全與用戶隱私領域,特別涉及一種面向加密流量識別的樣本自動標定方法。
背景技術
近年來,隨著互聯網的高速發展,網絡已經緊密地融入我們的生產與生活,網絡安全也成為一個不可忽視的問題。在日常生活中,人們的網絡安全意識也逐漸提高,越來越多的用戶和企業開始重視信息的保護和安全傳輸。基于加密流量的網絡行為識別技術,可以用來實現網絡的安全監管,特別是非法業務和不良信息的監管,如人口販賣,賣淫賭博,軍火交易等。加密流量識別(Website Fingerprinting,WF)就是一種通過對網絡流量的特征提取并結合有監督的分類模型對用戶行為基于網站進行分類的技術。目前關于加密流量識別技術的研究中,實驗數據的采集假設性很強,即通過嚴格的時間戳控制一次人為的網站請求的開始和結束以確保流量數據和網絡行為的對應關系。然而,在真實的網絡環境下,這種假設性很強的流量樣本訓練出的分類器并不適用,因為在出口抓流量并不能確定用戶訪問的開始和結束時間點,獲取到的流量是多個用戶甚至多個網站請求雜糅在一起的,因此不能抓到整個會話的所有流量與網絡行為進行對應。何把獲取到的混合流量拆分為不同的網站請求數據因此是值得關注的重要問題。
選擇一種合理有效的流量預處理方法,是一個非常重要的問題,理由包括:(1)加密流量識別技術的本質是基于有監督機器學習模型的分類技術,對于樣本的標定是至關重要的問題,即如何確定網絡行為和流量數據的對應關系。(2)真實網絡場景下只能得到混合流量的數據,如何將其拆分為不同的網站請求數據作為訓練樣本是分類學習中的基本問題。
國內外關于加密流量識別技術的流量預處理方法目前只有針對Tor的仿真數據處理方法。在實驗數據采集時就具有較強的假設,即通過嚴格的時間戳來控制每一次請求的開始和結束,具有很強指向性的流量很容易確保數據與網絡行為的對應關系。然而,在真實的網絡環境下,這種假設性很強的流量樣本訓練出的分類器并不適用,因為在出口抓流量并不能確定用戶訪問的開始和結束時間點,獲取到的流量是多個用戶甚至多個網站請求雜糅在一起的,因此不能抓到整個會話的所有流量與網絡行為進行對應。
發明內容
本發明的目的在于提供一種面向加密流量識別的樣本自動標定方法,以解決上述問題。
為實現上述目的,本發明采用以下技術方案:
一種面向加密流量識別的樣本自動標定方法,包括以下步驟:
步驟1:給定連續抓取n天的流量數據pcap文件,將其解析為時間戳,客戶端IP,客戶端Port,傳輸方向,數據包長度格式的流量數據序列,要求序列按照時間戳從小到大排序;給定在代理服務器端生成的通信日志,其中每條記錄的格式為時間戳,目標網址,客戶端IP,客戶端Port,要求通信日志是每隔兩小時生成一個日志文件,命名格式為“年-月-日-起始時刻”;
步驟2:選出包含從流量抓取到結束這一時間段的所有日志文件;
步驟3:以每天的偶數整點時刻為一個劃分點,將在相鄰兩個偶數整點時刻內的流量數據劃分到id為“年-月-日-起始時刻”的集合內,在每個集合內將具有相同客戶端IP和客戶端Port的流量數據的時間戳和數據包長度提取出來組合成按照時間戳從小到大排序的序列,每個序列被定義為一個TCP流;
步驟4:將流量數據集合與名稱等于集合id的日志文件匹配,即同一時間段的流量數據集合與日志文件對,在每個集合中,將擁有相同的IP和Port的目標網址和TCP流對應起來,將目標網址作為該TCP流的類別標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810897782.1/2.html,轉載請聲明來源鉆瓜專利網。





