[發明專利]特征提取的方法和裝置有效
| 申請號: | 201911304940.9 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111222019B | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 張元生 | 申請(專利權)人: | 山石網科通信技術股份有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/9035 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 董文倩 |
| 地址: | 215163 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 提取 方法 裝置 | ||
1.一種特征提取的方法,其特征在于,包括:
截取待檢測應用的流量數據包,得到數據包文件,其中,所述待檢測應用的數量為一個或多個;
對所述數據包文件進行預處理,得到數據方陣;
對所述數據方陣進行特征提取,得到所述待檢測應用的目標特征,其中,所述目標特征用于對所述待檢測應用的應用流量進行分析,所述目標特征為所述待檢測應用的所有特征中的最優特征;
其中,對所述數據包文件進行預處理,得到數據方陣,包括:對所述數據包文件進行網流過濾處理,得到預設網流,其中,所述待檢測應用對應多個所述數據包文件,每個所述數據包文件包括多個網流,所述網流用于表征網絡流量會話;按照每個所述預設網流的多個應用層負載的字節的大小對所述字節對應的字符進行排列,得到每個所述預設網流對應的字符串序列;根據所述字符串序列對所述預設網流進行分組處理,得到所述數據方陣;
對所述數據包文件進行網流過濾處理,得到預設網流,包括:對所述數據包文件中的傳輸控制協議網流中的超文本傳輸協議流量對應的網流以及超文本傳輸安全協議流量對應的網流進行過濾處理,得到非超文本傳輸協議流量對應的網流或超非文本傳輸安全協議流量對應的網流;對所述數據包文件中的用戶數據包協議網流中的域名系統協議流量對應的網流進行過濾處理,得到非域名系統協議流量對應的網流;
根據所述字符串序列對所述預設網流進行分組處理,得到所述數據方陣,包括:按照多個所述數據包文件中所述字符串序列的相似度對所述預設網流進行分組處理,得到所述數據方陣,其中,所述相似度大于預設相似度的預設網流分為一組;
對所述數據方陣進行特征提取,得到所述待檢測應用的目標特征,包括:將相同分組內具有相同數據流方向的應用層負載進行兩兩組合,輸入至特征提取模塊中,得到所述特征提取模塊的輸出結果;在所述輸出結果指示生成特征的情況下,獲取生成的至少一個待選特征;計算每個待選特征所對應的權重值;確定所述權重值最高的待選特征為所述目標特征。
2.根據權利要求1所述的方法,其特征在于,截取待檢測應用的流量數據包,得到數據包文件,包括:
確定所述待檢測應用對應的截取次數;
基于所述截取次數對所述待檢測應用的流量數據包進行多次截取處理,得到所述數據包文件。
3.根據權利要求2所述的方法,其特征在于,在每次的流量數據包截取過程中,對于相同的待檢測應用截取不同賬號對應的流量數據包。
4.根據權利要求1所述的方法,其特征在于,對所述數據方陣進行特征提取,得到所述待檢測應用的目標特征,包括:
將相同分組內具有相同數據流方向的應用層負載進行兩兩組合,輸入至特征提取模塊中,得到所述特征提取模塊的輸出結果;
在所述輸出結果指示未生成特征的情況下,獲取所述數據包文件中具有相同或相近的字符串序列,且具有相同數據流方向的處于預設位置的應用層負載進行特征提取,得到至少一個待選特征;
計算每個待選特征所對應的權重值;
確定所述權重值最高的待選特征為所述目標特征。
5.根據權利要求1或4所述的方法,其特征在于,計算每個待選特征所對應的權重值,包括:
根據所述每個待選特征所對應的特征字符串的字符串長度,得到第一數值;
根據所述字符串長度在對應的應用層負載中的偏移相關性,得到第二數值;
根據所述特征字符串在對應網流中的優先級,得到第三數值;
根據所述數據包文件的第一數量與包含所述特征字符串的數據包文件的第二數量的比值,得到第四數值;
根據所述特征字符串的數據流方向,得到第五數值;
計算所述第一數值、所述第二數值、所述第三數值、所述第四數值以及所述第五數值的乘機,得到所述權重值。
6.根據權利要求1所述的方法,其特征在于,在對所述數據方陣進行特征提取,得到所述待檢測應用的目標特征之后,所述方法還包括:
發送所述目標特征至內部服務器和/或云端服務器,并由所述內部服務器和/或所述云端服務器推送所述目標特征至網關設備,以使所述網關設備根據所述目標特征對所述待檢測應用的應用流量進行分析。
7.一種特征提取的裝置,其特征在于,包括:
截取模塊,用于截取待檢測應用的流量數據包,得到數據包文件,其中,所述待檢測應用的數量為一個或多個;
處理模塊,用于對所述數據包文件進行預處理,得到數據方陣;
提取模塊,用于對所述數據方陣進行特征提取,得到所述待檢測應用的目標特征,其中,所述目標特征用于對所述待檢測應用的應用流量進行分析,所述目標特征為所述待檢測應用的所有特征中的最優特征;
其中,所述處理模塊包括:過濾模塊,用于對所述數據包文件進行網流過濾處理,得到預設網流,其中,所述待檢測應用對應多個所述數據包文件,每個所述數據包文件包括多個網流,所述網流用于表征網絡流量會話;排列模塊,用于按照每個所述預設網流的多個應用層負載的字節的大小對所述字節對應的字符進行排列,得到每個所述預設網流對應的字符串序列;分組模塊,用于根據所述字符串序列對所述預設網流進行分組處理,得到所述數據方陣;
所述過濾模塊包括:第一過濾模塊,用于對所述數據包文件中的傳輸控制協議網流中的超文本傳輸協議流量對應的網流以及超文本傳輸安全協議流量對應的網流進行過濾處理,得到非超文本傳輸協議流量對應的網流或超非文本傳輸安全協議流量對應的網流;第二過濾模塊,用于對所述數據包文件中的用戶數據包協議網流中的域名系統協議流量對應的網流進行過濾處理,得到非域名系統協議流量對應的網流;
所述分組模塊包括:分組子模塊,用于按照多個所述數據包文件中所述字符串序列的相似度對所述預設網流進行分組處理,得到所述數據方陣,其中,所述相似度大于預設相似度的預設網流分為一組;
所述提取模塊包括:第一組合模塊,用于將相同分組內具有相同數據流方向的應用層負載進行兩兩組合,輸入至特征提取模塊中,得到所述特征提取模塊的輸出結果;第一獲取模塊,用于在所述輸出結果指示生成特征的情況下,獲取生成的至少一個待選特征;第一計算模塊,用于計算每個待選特征所對應的權重值;確定所述權重值最高的待選特征為所述目標特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山石網科通信技術股份有限公司,未經山石網科通信技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911304940.9/1.html,轉載請聲明來源鉆瓜專利網。





