[發明專利]基于特征自適應層次聚類的網絡流量圖像安全分類方法有效
| 申請號: | 202110015140.6 | 申請日: | 2021-01-06 |
| 公開(公告)號: | CN112688961B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 陳紅松;孫學潔 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L12/24;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波;鄧琳 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 自適應 層次 網絡流量 圖像 安全 分類 方法 | ||
本發明公開了一種基于特征自適應層次聚類的網絡流量圖像安全分類方法,利用自適應層次聚類方法對網絡流量特征進行聚類,所生成的聚類的網絡流量圖像在不損失網絡流量特征信息的前提下,加強了網絡流量特征之間的關聯性,增加了網絡流量相關特征的強度,從而提高了網絡流量安全分類的準確性。所述方法對網絡流量特征進行自底而上的凝聚法聚類,具有一定的自適應性,并提出最優聚類數選取的方法,增強了流量特征圖像聚類效果,對種類復雜多樣的網絡流量安全分類問題普遍適用。
技術領域
本發明涉及網絡流量安全技術領域,特別涉及一種基于特征自適應層次聚類的網絡流量圖像安全分類方法。
背景技術
網絡流量安全分類作為網絡安全管理和網絡安全分析的基礎,是網絡安全領域的研究重點。隨著人工智能的發展,機器學習技術在網絡流量安全分類應用中愈加廣泛,然而機器學習分類模型的識別性能往往過于依賴特征選擇,在某種程度上,特征選擇的優劣直接決定了網絡流量分類模型性能的上限。
現有技術通過改進網絡流量特征選擇方法或優化機器學習算法來提高網絡流量安全分類的效果,然而利用特征選擇方法求得對機器學習模型分類特征組合,會不同程度地損失網絡流量的原始特征信息,甚至陷入局部最優,使得整體分類結果不穩定、不準確,并且由于機器學習算法自身的局限性,實現多種類復雜網絡流量安全分類仍然存在一定的難度。
現有的技術方案主要有以下幾種:
(1)中國科學技術大學的Wei Wang認為數據流前面字段部分是包含連接數據和內容數據,可以很好地反映數據流的固有特征,因此通過截取原始網絡流量數據中每條數據流的前784B(長度不夠,用0x00填充),然后轉換為28×28的圖像對網絡流量特征信息進行選擇,最后使用了類似于LeNet-5的CNN體系結構,對網絡流量進行分類。
(2)中國科學院信息工程研究所的吳迪同方案1一樣,只是截取原始網絡流量數據中每條數據流的前1024B,然后轉換為32×32的圖像對網絡流量特征信息進行統計。
(3)國家計算機網絡與信息安全管理中心的劉紀偉提出一種基于統計排序的特征選擇方法(Feature Selectionbased on Statistic and Ranking,FSSR),該方法根據特征的重要性權重值進行特征選擇。首先根據特征選擇系數大小選取相關性強、類別區分度高的特征組成初始特征子集,然后根據特征影響系數大小按序對初始特征子集進行二次選擇,再次進行降維尋優操作,從而獲得最優特征子集,有效提升分類的效率和效果。
(4)FahadA提出一種全局優化方法(Global OptimizationAlgorithm,GOA),首先結合了多種的特征選擇技術,產生跨不同流量數據集的初始特征子集,然后基于信息熵來提取穩定和準確特征,并使用一種基于隨機森林的過濾方法,獲得最優特征子集。
(5)康奈爾大學的Ongun T設定一個長度為T的時間間隔,在這個時間間隔上,對通過所有連接節點的網絡數據流的特征進行聚合,定義為節點間通信時間T內流量特征分布的平均值、標準差、中位數、最小值和最大值等,最終采用隨機森林和梯度增強方法對網絡流量進行安全分類。
(6)國家數字交換系統工程技術研究中心的許倩提出一種基于層次聚類的流量異常分類(Traffic Anomaly Classification Based on Hierarchical Clustering,TAC—HC)算法,通過訓練已標記的異常流量構建分類樹,利用特征屬性的學習過程建立網絡流量分類模型。
上述方案中,方案(1)和方案(2)分別截取了原始網絡流量數據中每條數據流的前784B和前1024B并轉成圖像,作為網絡流量特征的信息提取,并用CNN和LSTM網絡學習特征,進而分類網絡流量。這種方法網絡流量特征只進行規定字節數量的截斷處理,單純地統計了網絡流量樣本特征,以上方法會造成信息量大的網絡數據流量損失特征信息,信息量小的網絡數據流量信息冗余,進而造成網絡流量數據的不穩定性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110015140.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:雙質量飛輪
- 下一篇:基于大數據的電商產品模擬系統





