[發明專利]基于半監督降維和Tri-LightGBM的異常流量檢測方法有效
| 申請號: | 202010892200.8 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN111970305B | 公開(公告)日: | 2022-08-12 |
| 發明(設計)人: | 張浩;李杰鈴 | 申請(專利權)人: | 福州大學 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06K9/62 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 陳明鑫;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 維和 tri lightgbm 異常 流量 檢測 方法 | ||
本發明涉及一種基于半監督降維和Tri?LightGBM的異常流量檢測方法,包括以下步驟:步驟S1:對網絡流量數據進行采集,并對采集到的數據進行粒度細化、特征提取與標記,并分為標記數據和無標記數據;步驟S2:對數據進行預處理,得到標記樣本和無標記樣本;步驟S3:采用Fisher Score和信息增益對標記樣本進行多策略的特征組合,并結合無標記樣本,采用PCA將多特征轉化為綜合特征;步驟S4:構建三個基本分類器LightGBM,并初始化;步驟S5:根據初始化后的三個基本分類器LightGBM,生成未標記數據的偽標記,并基于偽標記數據和標記樣本數據用于迭代更新基本分類器;步驟S6:基于投票方法,將三個基本分類器融合為一個強分類器。本發明有效提高了對不平衡數據樣本的預測準確率。
技術領域
本發明涉及入侵檢測和機器學習,具體涉及一種基于半監督降維和Tri-LightGBM的異常流量檢測方法。
背景技術
如今,網絡已成為日常生活中非常重要的一部分,惡意攻擊無處不在,網絡攻擊主要通過侵入主機來達到惡意破壞的目的,分析網絡節點的流量數據來判斷是否存在入侵現象,成為識別網絡安全事件的關鍵步驟。基于監督學習的異常流量檢測算法獲取大量有標簽數據需要耗費大量的人力物力,而無監督學習準確率不高。
發明內容
有鑒于此,本發明的目的在于提供一種基于半監督降維和Tri-LightGBM的異常流量檢測方法,省去了大量樣本標記工作量,且具有與降維前性能相當的檢測率和誤報率,并有效提高檢測效果。
為實現上述目的,本發明采用如下技術方案:
一種基于半監督降維和Tri-LightGBM的異常流量檢測方法,包括以下步驟:
步驟S1:對網絡流量數據進行采集,并對采集到的數據進行粒度細化、特征提取與標記,并分為標記數據和無標記數據;
步驟S2:對數據進行預處理,得到標記樣本和無標記樣本;
步驟S3:采用FisherScore和信息增益對標記樣本進行多策略的特征組合,并結合無標記樣本,采用PCA將多特征轉化為綜合特征;
步驟S4:構建三個基本分類器LightGBM,并基于標記樣本進行初始化;
步驟S5:根據初始化后的三個基本分類器LightGBM,生成未標記數據的偽標記,并基于偽標記數據和標記樣本數據用于迭代更新基本分類器;
步驟S6:基于投票方法,將三個基本分類器融合為一個強分類器,用于對異常流量檢測。
進一步的,所述預處理包括字符數據映射和歸一化處理。
進一步的,所述步驟S3具體為:
步驟S31:根據下式計算FisherScore,然后根據分值對特征重要性進行降序排序;
式中:給定特征集{f1,f2,…,fm},ui表示樣本中第i個特征fi的均值,表示樣本中第i個特征fi在第k類中的均值,表示第i個特征fi在第k類樣本的方差,nk表示第k類樣本的數目,F(fi)表示第i個特征的Fisher分值;
步驟S32:根據下式計算信息增益,并根據分值對特征重要性進行降序排序
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010892200.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種快速合成V-型聚磷酸銨的方法
- 下一篇:一種彈性蛋白肽的制備方法





