[發明專利]基于閉合頻繁項挖掘的未知協議報文聚類方法和系統在審
| 申請號: | 202011266863.5 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112367325A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 洪征;李毅豪;林培鴻 | 申請(專利權)人: | 中國人民解放軍陸軍工程大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06N3/08;G06N3/04;G06K9/62;G06F40/289;G06F40/216 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 朱遠楓 |
| 地址: | 210007 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 閉合 頻繁 挖掘 未知 協議 報文 方法 系統 | ||
本發明公開了一種基于閉合頻繁項挖掘的未知協議報文聚類方法和系統,將目標協議的數據報轉換成報文,進而將報文劃分成不同類型。對報文進行分詞;根據分詞及其頻繁度,挖掘報文中的閉合頻繁項。在此基礎上,依據閉合頻繁項對報文進行向量化,而后使用t?sne算法對報文向量進行降維處理。最后,根據報文的向量信息,利用自組織映射神經網絡對報文進行聚類。本發明適用于協議規范未知的網絡通信協議,采用協議報文中的閉合頻繁項作為特征對報文進行聚類,解決了傳統序列比對方法應用于報文聚類時準確性低的缺點,具有通用性強、聚類準確性高的優勢。
技術領域
本發明涉及一種網絡通信報文的聚類方法,具體涉及一種基于閉合頻繁項挖掘的未知協議報文聚類方法和系統,屬于網絡技術領域。
背景技術
網絡協議是為在計算機網絡中進行數據交換而建立的規則、標準或者約定的集合。網絡協議是計算機網絡中不可替代的重要組成部分,它規范了網絡實體之間的通信過程。網絡管理、流量監控、漏洞挖掘、入侵檢測等網絡安全應用都依賴于協議規范。然而,由于商業原因或私人原因,大量協議的規范信息并沒有公開,除此之外還有許多惡意軟件也使用自定義的協議進行通信。這些協議都屬于未知協議。
協議逆向工程是指在不依賴協議描述的情況下,通過對協議實體的網絡輸入輸出、系統行為和指令執行流程進行監控和分析,提取協議語法、語義和同步信息的過程。協議逆向工程是獲得未知協議的協議規范信息的主要方法。
對網絡報文進行聚類,將同種類型的協議報文聚集在一起,是協議逆向過程中的一個重要環節。在真實網絡環境中,各種網絡協議的通信報文交織在一起,且一種網絡協議通常包含眾多的報文類型,這給協議逆向分析帶來了巨大挑戰。因此,在進行協議逆向時,往往必須先對網絡中的通信報文進行聚類,使同種類型的報文聚合成簇。在此基礎上進行分析,降低協議逆向的難度,提升逆向分析結果的準確率。
每種網絡協議通常都會包含多種報文類型,例如在HTTP協議中,有“GET”類型的報文和“POST”類型的報文。對于協議規范已知的協議,可以利用協議特征進行報文聚類,將同種類型的報文聚集在一起,實施起來相對容易。但是如果協議規范未知,則報文聚類并不容易。本發明主要聚焦協議規范未知的通信協議的報文聚類問題。
未知協議報文聚類需要考慮如何在沒有協議先驗知識的情況下,將相同類型的報文聚合在一起。一種網絡協議往往包含多種報文類型,本發明旨在將捕獲的網絡協議報文聚合成多個簇,其中每個簇中的報文對應于協議的一種報文類型。
PI項目(Protocol Information Project)是最早的一個自動化協議逆向項目,它將生物信息學中的序列比對算法應用于衡量報文相似性,根據相似性建立報文相似性矩陣,然后使用非加權成對群算數平均法對報文進行聚類。然而,使用基于序列比對算法衡量報文相似性,然后對報文聚類的方法,不能發現局部差異導致的報文類型的不同。例如,網絡中捕捉到SMTP協議的兩條報文:“HELO crow.eyrie.af.mil”和“EHLOcrow.eyrie.af.mil”分別表示不需要用戶認證的連接方式和需要用戶認證的連接方式。由于“HELO”和“EHLO”的局部微小差異,導致了報文類型的不同。使用基于序列比對算法的聚類會因為察覺不出局部微小差異而導致聚類結果準確率較低的情況。
Siyu Tao等研究人員利用Needle-Wunsch算法衡量報文的相似性,使用輪廓系數指導的K-means聚類算法對報文進行聚類。這種聚類方法不需要知道K-means聚類算法中K的取值,因為通過輪廓系數指導能夠自動選取最優K值。但是,這種聚類方法同PI項目一樣,由于使用序列比對算法,難以發現報文微小差異導致的報文類型不同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍陸軍工程大學,未經中國人民解放軍陸軍工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011266863.5/2.html,轉載請聲明來源鉆瓜專利網。





