[發明專利]基于稀疏表示和卷積神經網絡的私有加密協議報文分類法在審
| 申請號: | 202011474852.6 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112511555A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 吉慶兵;張文政;潘煒;張李軍;于飛;劉成;談程;尹浩 | 申請(專利權)人: | 中國電子科技集團公司第三十研究所 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06N20/00;G06N3/04 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 卿誠 |
| 地址: | 610000 *** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 稀疏 表示 卷積 神經網絡 私有 加密 協議 報文 分類法 | ||
本發明涉及網絡信息技術領域,具體涉及基于稀疏表示和卷積神經網絡的私有加密協議報文分類法,包括獲取網絡流量數據并進行預處理,得到數據集文件以及標簽文件;將數據集文件導入稀疏自編碼器進行無監督的特征學習,得到維度更小的輸入數據;使用稀疏表示后的訓練集和訓練集標簽對二維卷積神經網絡進行訓練,進行卷積和池化并最小化誤差,得到分類器。本發明公開的分類法自動從原始的網絡流量中學習到私有加密協議報文的分類特征,實現分類識別;不依賴網絡流量數據包頭部的IP地址、端口號信息,分類模型泛化能力強;利用稀疏表示學習私有加密協議報文的局部特征,二維卷積神經網絡學習私有加密協議報文的全局特征,提高分類器的識別精度。
技術領域
本發明涉及網絡信息技術領域,具體涉及基于稀疏表示和卷積神經網絡的私有加密協議報文分類法。
背景技術
隨著網絡環境越來越復雜,很多企業、公司都使用自己的私有加密協議來進行通信,私有加密協議是企業內部制定的協議標準,協議格式是不公開的,報文數據是加密的。從網絡安全與監測管理的角度,需要對私有加密協議報文進行有效識別。
基于端口號匹配和DPI(Dots Per Inch,每英寸點數)等根據規則匹配的流量分類方法需要先解析報文內容,再進行規則匹配最后實現分類,這些并不適用于私有加密協議報文。使用機器學習的分類方法不需要對報文的內容進行解析便可以完成分類,因此近年來越來越多的研究機構和人員使用機器學習的方法對網絡進行分類。
使用機器學習方法對私有加密協議報文進行分類時,按使用的機器學習算法不同可以分為傳統機器學習算法(淺層學習)和深度學習。傳統機器學習算法對私有加密協議報文分類主要存在兩個問題:一個是需要對待分類的報文人工設計一個可以普遍反映流量特征的特征集,另一個就是傳統機器學習方法有很大的局限性,例如對復雜函數難以表示、容易陷入局部最優解等。由于以上兩個原因,導致傳統機器學習方法對私有加密協議報文分類的準確率不是很高。
因此,需要提出更為合理的技術方案,解決現有技術中存在的技術問題。
發明內容
為了克服上述內容中提到的現有技術存在的缺陷,本發明提供了基于稀疏表示和卷積神經網絡的私有加密協議報文分類法,旨在利用深度學習方法自動學習私有加密協議報文數據的局部特征和全局特征,以有效識別網絡流量數據中承載的私有加密協議報文的應用類型。
為了實現上述目的,本發明具體采用的技術方案是:
基于稀疏表示和卷積神經網絡的私有加密協議報文分類法,包括:
獲取網絡流量數據并進行預處理,得到訓練數據集、測試數據集、訓練標簽文件以及測試標簽文件;
將訓練數據集和測試數據集導入稀疏自編碼器進行無監督的特征學習,得到維度更小的輸入數據;
使用稀疏表示后的訓練集和訓練集標簽對二維卷積神經網絡進行訓練,進行卷積和池化并最小化誤差,得到用于對測試集進行分類的分類器。
上述公開的報文分類法,通過稀疏自編碼器和二維卷積神經網絡對數據進行處理,可有效識別出網絡流量數據中承載的私有加密協議報文應用類型。
進一步的,按照上述公開的方法,在完成分類器的訓練后,使用二維卷積神經網絡訓練完成的私有加密協議報文分類器對測試數據集進行測試,將測試結果與測試集標簽進行對比,驗證私有加密協議報文分類的準確性。
在私有協議報文分類模型和分類器的設計過程中時,需要考慮分類器的有效輸入問題,以提高分類識別的效率。不論是采用公開的數據集,還是研究人員自己采集的網絡業務數據流量,原始流量格式均為pcap格式,并不能直接用于基于深度學習模型的私有加密協議報文分類器輸入,需要將數據格式轉換為idx格式。原始數據除了可能存在數據格式的問題,還可能存在數據信息不完整等問題。因此,必須對真實的網絡流量數據進行預處理。采用報文劃分、數據歸一化、數據可視化以及數據轉換的預處理流程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第三十研究所,未經中國電子科技集團公司第三十研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011474852.6/2.html,轉載請聲明來源鉆瓜專利網。





