[發明專利]基于數據包時序的加密網頁流量分割點識別方法有效
| 申請號: | 202010007696.6 | 申請日: | 2020-01-05 |
| 公開(公告)號: | CN111209959B | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 楊超;孟獻昆;蘇銳丹;尤偉;鄭昱;郭剛;陳明哲 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 陳宏社;王品華 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據包 時序 加密 網頁 流量 分割 識別 方法 | ||
1.一種基于數據包時序的加密網頁流量分割點識別方法,其特征在于,包括以下步驟:
(1)獲取加密網頁流量原始數據集T:
(1a)構建包含計算機D、加密網絡N和網頁服務器S的數據采集網絡,計算機D包含匿名瀏覽器C和抓包軟件,網頁服務器S包括至少一個網頁W;
(1b)匿名瀏覽器C通過加密網絡N對網頁服務器S所包含的網頁W進行n次訪問,并通過抓包軟件對每次訪問的請求和應答過程所產生的雙向加密網頁流量數據進行抓取,得到加密網頁流量原始數據集T,T={T1,T2,...Ti,...Tn},其中,Ti表示第i次抓取的包含m個數據包的加密網頁流量數據,第j個數據包的時間戳和長度分別為tij和lij,n≥2,m≥3;
(2)定義加密網頁流量數據Ti的矢量數據包:
定義加密網頁流量數據Ti中帶有方向的數據包為矢量數據包,匿名瀏覽器C通過加密網絡N向網頁服務器S發送的請求數據包為矢量數據包-lij,網頁服務器S通過加密網絡N向匿名瀏覽器C發送的應答數據包為矢量數據包+lij;
(3)基于數據包時序獲取加密網頁流量數據Ti的序列段集合:
(3a)將加密網頁流量數據Ti中數據包的矢量數據包記為l′ij,并以[時間戳,矢量]為格式對Ti進行序列化,得到加密網頁流量序列T′i:
T′i={(ti1,l′i1),(ti2,l′i2),...,(tij,l′ij),...(tim,l′im)};
(3b)以Δt為單位時間對加密網頁流量序列T′i進行劃分,得到包括s段子序列的序列段集合T′i={T′i1,T′i2,...T′ik,...T′is},其中,T′ik表示第k段序列;
(4)獲取加密網頁流量序列T′i的時序特征向量集合CTi和標簽集合Yi:
(4b)計算第k段T′ik內序列個數的統計值和矢量的統計值,以及第k段T′ik內相鄰序列之間時間間隔的統計值,其中:
第k段T′ik內序列個數的統計值和矢量的統計值,包括矢量為“+”的序列個數scnk和序列總矢量和sclk、矢量為“-”的序列個數csnk和序列總矢量和cslk、sclk的長度|sclk|和cslk的長度|cslk|、序列總個數vnk和序列總矢量和vlk,以及序列總矢量長度vl′k、scnk與vnk的比值csnk與vnk的比值sclk與vlk的比值cslk與vlk的比值|sclk|與vl′k的比值|cslk|與vl′k的比值k≥2,其中:
vnk=scnk+csnk
vlk=sclk+cslk
vl′k=|sclk|+|cslk|
第k段T′ik內相鄰序列之間時間間隔的統計值,包括最大時間間隔、最小時間間隔、所有時間間隔的平均值和標準差;
(4c)將加密網頁流量序列T′i中第k段T′ik內序列個數的統計值和矢量的統計值,以及第k段T′ik內相鄰序列之間時間間隔的統計值組成時序特征向量CTik,并將T′i中s段的時序特征向量組成時序特征向量集合CTi:
CTi={CTi1,CTi2,...CTik,...CTis};
(4d)通過標簽yik對第k段T′ik的時序特征向量CTik進行標注,得到標簽集合Yi:Yi={yi1,yi2,...yik,...yis},其中:
0表示為加密網頁流量的分割點,1表示為非加密網頁流量的分割點;
(5)獲取訓練集集合Vtrain和測試集集合Vtest:
將從時序特征向量集合CTi中隨機選取的半數以上的特征向量,以及每個特征向量在標簽集合Yi中對應的標簽作為訓練集Vitrain,n個訓練集組成訓練集集合Vtrain,同時將CTi其余特征向量和每個特征向量在標簽集合Yi中對應的標簽作為測試集Vitest,n個測試集組成測試集集合Vtest,其中:
(6)構建分類模型M:
將訓練集集合Vtrain作為隨機森林算法的輸入進行訓練,得到分類模型M;
(7)獲取加密網頁流量分割點的識別結果:
將測試集集合Vtest作為分類模型M的輸入進行分類,得到Vtest中每個特征向量的標簽。
2.根據權利要求1所述的基于數據包時序的加密網頁流量分割點識別方法,其特征在于,步驟(6)中所述的構建分類模型,實現步驟為:
(6a)從訓練集集合Vtrain中有放回的隨機抽取q次,每次抽取的p個特征向量組成子訓練集集合V′train:
其中表示第c個子訓練集,1≤c≤q,且CTcr為第r個特征向量,且CTcr=(fea1,fea2,...,feau, ... feaw),feau為第u個特征,w為特征總數;
(6b)從中的特征向量CTcr中隨機選擇or個特征組成部分特征向量CT′cr,對應的部分特征向量組成部分特征子訓練集并將作為決策樹算法的輸入構建決策樹treec,所有決策樹組成分類模型M:
M={tree1,tree2,...treec,...treeq}
其中treec為第c個決策樹,1≤c≤q。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010007696.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種推斷物性參數的方法及裝置
- 下一篇:一種基于通道的兩級監控處理方法





