[發明專利]基于數據包時序的加密網頁流量分割點識別方法有效

申請號：	202010007696.6	申請日：	2020-01-05
公開（公告）號：	CN111209959B	公開（公告）日：	2022-03-04
發明（設計）人：	楊超;孟獻昆;蘇銳丹;尤偉;鄭昱;郭剛;陳明哲	申請（專利權）人：	西安電子科技大學
主分類號：	G06K9/62	分類號：	G06K9/62
代理公司：	陜西電子工業專利中心 61205	代理人：	陳宏社;王品華
地址：	710071***	國省代碼：	陜西;61
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于數據包時序加密網頁流量分割識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提出了一種基于數據包時序的加密網頁流量分割點識別方法，用于解決現有技術中存在的識別準確率較低的技術問題。實現步驟為，獲取加密網頁流量原始數據集T；定義加密網頁流量數據T_i的矢量數據包；基于數據包時序獲取加密網頁流量數據T_i的序列段集合；獲取加密網頁流量序列T_i'的時序特征向量集合CT_i和標簽集合Y_i；獲取訓練集集合V^train和測試集集合V^test；構建分類模型M；最后獲取加密網頁流量分割點的識別結果。本發明通過數據包時序對數據包進行分段，并以此進行特征構造對加密網頁流量分割點進行識別，解決了現有技術識別準確率較低的問題，同時由于采用分段處理，能夠提高識別方法的效率。

技術領域

本發明屬于網絡安全與用戶隱私領域，涉及一種加密網頁流量分割點識別方法，具體涉及一種基于數據包時序的加密網頁流量分割點識別方法。

背景技術

加密通信網絡的目的是隱藏通信雙方的關系和內容，一旦雙方建立了加密通信網絡，通信內容就會被加密，第三方的源和目標IP等路由信息就會被隱藏。然而這種高度的匿名性卻給那些利用網絡從事違法犯罪的不法分子提供了便利，同時也給網絡監管機構帶來了更大的困難和挑戰。

當用戶通過加密通信網絡進行網頁訪問活動時產生的多次請求和應答的流量就是加密網頁流量，使用網站指紋識別技術對這些加密網頁流量進行識別，就可以在不破解用戶加密數據的情況下得到用戶訪問的網頁信息，對用戶網絡進行內容審查。在對進行加密網頁流量進行網站指紋識別時，其中最重要的一步就是確保輸入的待識別流量是單網頁加密流量，因為現有的網站指紋識別技術都是基于單網頁流量進行網站指紋模型的構建，如果輸入的待檢測加密網頁流量是多個網頁的混雜流量，就會造成網站指紋模型的識別錯誤，影響網站指紋識別技術在現實場景的應用。所以對每個加密網頁流量的起始數據包即加密網頁流量分割點進行識別，在此基礎上得到單網頁的加密網頁流量，就顯得格外重要。

目前對于加密網頁流量的分割點識別方法的研究，主要基于對加密網頁流量數據包的時間間隔的分析。其中有兩種方法較為廣泛，一種是根據數據包的時間間隔對加密網頁流量進行分析，一種是使用機器學習的方法提取分割點周圍的特征進行分析。前一種方法是最樸素的一種方法，根據數據包之間的間隔確認加密網頁分割點的位置，當相鄰數據包之間的時間間隔大于某一數值時，就認為第二個數據包為加密網頁流量的分割點，這種方法僅僅能識別兩個網頁起始訪問時間時間間隔較大時產生的加密網頁流量分割點，對同時打開兩個網頁即零時間間隔加密網頁流量分割點就不能識別，因此，后一種方法得到了更多研究人員的關注。

目前，使用機器學習的方法提取分割點周圍的特征進行分析的方法大多包含以下三個步驟：1)加密網頁流量數據獲取與預處理；2)特征提?。?)機器學習分類器構建。在數據獲取與預處理步驟中，需要獲取加密網頁流量數據，并將數據進行初步分組與序列化；在特征提取步驟中，需要從每組數據中提取具有能顯著區分分割點和非分割點特性的特征；在分類器構建步驟中，需要將從特征提取步驟中得到特征輸入到分類器中進行訓練，并得到分類模型。目前最常用的分類算法是隨機森林。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學，未經西安電子科技大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010007696.6/2.html，轉載請聲明來源鉆瓜專利網。