[發明專利]一種基于分組分域的移動應用指紋自動化提取方法及系統有效
| 申請號: | 202011112176.8 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112261645B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 杜飛;尹天陽;李國靜 | 申請(專利權)人: | 北京銳馳信安技術有限公司 |
| 主分類號: | H04W12/30 | 分類號: | H04W12/30;H04L67/02;H04L9/40 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 祗志潔 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 組分 移動 應用 指紋 自動化 提取 方法 系統 | ||
1.一種基于分組分域的移動應用指紋自動化提取系統,其特征在于,包括數據預處理模塊、流量分組模塊、流量分域模塊、指紋提取模塊以及指紋提純模塊;
所述的數據預處理模塊接收網絡采集點捕獲的移動應用網絡流量,進行數據包解析和協議解析,抽取每一對HTTP請求包和響應包,組成HTTP流量樣本;
所述的流量分組模塊對每個HTTP流量樣本進行解析,獲取Host字段和URL中的path一級目錄部分,先依據Host字段的取值將HTTP流量樣本劃分為不同的組,再依據path一級目錄將每組中的HTTP流量樣本劃分到不同的簇中;
所述的流量分域模塊對每個HTTP流量樣本,依據HTTP報文格式的字段結構從HTTP流量樣本中提取數據塊域,每一個數據塊域為鍵值對形式存儲,鍵為數據塊域名稱,值為從域中提取的詞集合,并統計每個詞在樣本中的詞頻;所提取的數據塊域包括server_ip域、path域、query_key域、query_kv域、Host域、Cookie_key域、Cookie_kv域、User-Agent域、Header_key域以及Header_kv域;其中:
server_ip域,來源于承載HTTP流量樣本的TCP報文頭部,標識了樣本所屬應用的服務端特性;
path域,提取URI中的path部分,對path部分按分隔符“/”和“.”進行分詞處理,構成path域的詞集合;
query_key域,提取URI中query部分,query部分中所有“key=value”格式中的key,構成query_key域的詞集合;
query_kv域:提取URI中query部分,query部分中的所有(key,value)對,構成query_kv域的詞集合;
Host域,來源于樣本中的Host部分,體現樣本所屬應用的主機域名特征,對Host部分依據分隔符“.”和“:”進行分詞處理,構成Host域的詞集合;
Cookie_key域,提取樣本頭部字段中類Cookie字段中所有“key=value”格式中的key,構成Cookie_key域的詞集合;
Cookie_kv域,提取樣本頭部字段中的類Cookie字段中所有“key=value”格式中的(key,value)對,構成Cookie_kv域的詞集合;
User-Agent域,對樣本頭部字段中的User-Agent字段內容,以標點符號包括斜杠、空格、左右括號進行分割,構成User-Agent域的詞集合;
Header_key域,對樣本中剩余的頭部字段名稱提取,構成Header_key域的詞集合,用于體現樣本所屬應用的HTTP協議報文頭部結構特征;
Header_kv域,對樣本中剩余的頭部字段名稱與字段內容提取詞,構成Header_kv域的詞集合;
所述的指紋提取模塊對每個簇內的所有HTTP流量樣本的數據塊域,采用topk關鍵詞選擇算法提取每一個域中的指紋,生成應用的候選指紋;
所述的指紋提純模塊對候選指紋進行停用詞和隨機值過濾,獲得最終的應用指紋;對候選指紋進行隨機值過濾時,根據詞長度、熵值和特殊字符統計方面設計過濾規則,包括:
對候選指紋中每個域中的每個詞s,計算s的長度ls,信息熵entropys,十六進制字母字符個數hexs,數字字符個數digits;
規則1:用于過濾時間戳,表示為digits=8且digits/ls=0.7且entropys2;
規則2:用于過濾哈希值,表示為(hexs+digits)/ls≥0.8且ls≥10且entropys3;
規則3:用于過濾時間戳或id值,表示為digits≥30且entropys≥2.5;
規則4:用于過濾哈希值,表示為ls≥40且entropys≥4;
規則5:用于過濾超長值,表示為ls60;
規則6:用于過濾隨機值,表示為entropys4.5;
所述的系統對已知應用標簽的HTTP流量提取所屬應用的指紋,存儲在應用指紋庫中;對待識別的HTTP流量,利用數據預處理模塊提取每對HTTP請求包和響應包,生成待識別的HTTP流量樣本,再利用流量分域模塊對待識別的HTTP流量樣本提取數據塊域,所提取的數據塊域生成待識別的HTTP流量樣本的指紋Q,計算指紋Q與應用指紋庫中每個應用指紋的相似度,選取其中相似度最大的應用作為待識別的HTTP流量樣本的所屬應用;
其中,HTTP表示超文本傳輸協議,URL表示統一資源定位符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳馳信安技術有限公司,未經北京銳馳信安技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011112176.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可選的克里金空間插值降雨量估算方法
- 下一篇:一種水利水電閘門提升裝置





