[發明專利]一種面向惡意流量檢測正負樣本均衡生成的過采樣方法有效
| 申請號: | 202011093930.8 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112235293B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 郭陽明;劉明明;姚紅靜;劉尊;王曉東;李庚;高建軍 | 申請(專利權)人: | 西北工業大學;西安蒙頓信息科技有限公司;西北工業大學深圳研究院 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06K9/62 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 金鳳 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 惡意 流量 檢測 正負 樣本 均衡 生成 采樣 方法 | ||
本發明提供了一種面向惡意流量檢測正負樣本均衡生成的過采樣方法,提取接近決策邊界的樣本進行分析,對所提取的樣本進行聚類分析,確定最終選擇,合成數據點,將新生成的類樣本加入到原始樣本集中,構成最終的訓練樣本集。本發明針對機/星載環境中的惡意樣本數據不平衡問題,提出了一個迭代合成過采樣算法,通過生成少數類樣本以平衡正負類的數量差異,重構樣本提高分類器在不平衡數據集上的精度,支撐惡意流量檢測的準確識別。
技術領域
本發明涉及網絡安全領域,尤其是一種惡意流量的過采樣方法,本發明解決惡意流量檢測模型由于正負樣本數量不均,導致分類器決策邊界出現偏差,使得惡意流量檢測性能降低的問題,從而提高網絡的安全防護能力。
背景技術
未來的天地一體化網絡是由多種異構網絡組成的混合網絡,網絡的安全性將面臨著嚴峻的挑戰。由于空間鏈路和地面網絡的開放性,空間鏈路的數據可以被地面站截獲,同時敵方地面站可以采用重播攻擊和拒絕服務攻擊等手段對空間飛行器進行直接攻擊以達到信息獲取、飛行器破壞等目的;非法用戶同樣可以通過攻擊地面網絡來截獲數據以及通過地面網絡對空間飛行器進行間接攻擊。通信網絡越復雜,攻擊者越容易有可乘之機。
在未來天地一體化網絡的環境下,惡意流量攻擊可能是一類嚴重威脅。例如,攻擊者可能通過劫持宿主衛星或高空長航時無人機來隱藏惡意身份,取代宿主與目標進行通信,進而非法獲取內容;更嚴重的是,攻擊者還可能通過改變通信流特征來逃避安全檢測,即產生惡意流量變體。因此,為防患于未然而建立一個能夠檢測惡意流量及其變體攻擊的流量檢測系統,對未來天地一體化網絡是非常重要的。
傳統的惡意軟件檢測技術主要有簽名匹配和動態行為分析,簽名匹配只能通過簽名集檢測已知的惡意行為,對新型惡意攻擊無能為力;動態行為分析需要消耗大量資源和時間,網絡數據分布的高計算量和連續變化使分析動態行為變得困難。過去網絡攻擊是以一種簡單而隨機的方式來組織,然而現在的攻擊是系統而長期進行的,具有更新變化快、攻擊性強的特點。基于以上原因,利用機器學習技術,基于數據流特征對惡意攻擊進行檢測成為近年研究的熱點。將大量流量數據輸入到訓練模型中,對其進行惡性或良性分類,最終得到一個預測模型,機器學習用于惡意流量檢測,不僅具有較好的準確性和處理能力,還能夠識別已知或未知的惡意攻擊。
在各種將機器學習用于惡意流量檢測的工作中,BJ Radford等人提出使用遞歸神經網絡(Recurrent Neural Network,RNN)中的長短期記憶模型(Long-Short TermMemory,LSTM)來識別異常模式,這是一種單純的無監督異常檢測模型,存在誤警率過高的問題;此外,有研究人員提出采用模糊聚類分析(Fuzzy Cluster Analysis,FCA) 來分類惡意網絡流量,但準確性受到群集的數量和劃分的限制;WYassin等人將 k-means和決策樹相結合來探測惡意攻擊,該方法沒有考慮處理時間的問題,空天環境下新型攻擊層出不窮,需要快速響應惡意攻擊以便及時止損,該方法不適用于迅速檢測。
與以上機器學習算法相比,支持向量機(Support Vector Machine,SVM)由于其在處理高維數據集和避免局部優化問題上的優越性而廣泛用于惡意流量檢測。SVM基于最大間隔分割數據,訓練出一個分割超平面作為分類的決策邊界,相比其他機器學習算法,其泛化錯誤率低,具有良好的學習和泛化能力。SVM利用內積核函數代替向高維空間的非線性映射,計算的復雜性只取決于支持向量的數目,而不是樣本空間的維數,在處理高維數據集上具有較大優勢;除此之外,SVM本身是個凸優化問題。因此,局部最優解一定是全局最優解,避免了陷入局部最優化的問題。
基于SVM的異常流量識別系統ATIS可以分類和識別多個攻擊流量應用,相比利用其他機器學習算法的檢測,避免了局部優化問題,但該方法的一個局限性是沒有考慮不平衡數據集的問題,樣本數據的不平衡特性會使流量檢測模型的決策邊界出現偏差,導致準確率降低。因此,解決實際環境中的樣本不平衡問題,是提高檢測有效性的關鍵之一。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學;西安蒙頓信息科技有限公司;西北工業大學深圳研究院,未經西北工業大學;西安蒙頓信息科技有限公司;西北工業大學深圳研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011093930.8/2.html,轉載請聲明來源鉆瓜專利網。





