[發明專利]基于半監督降維和Tri-LightGBM的異常流量檢測方法有效
| 申請號: | 202010892200.8 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN111970305B | 公開(公告)日: | 2022-08-12 |
| 發明(設計)人: | 張浩;李杰鈴 | 申請(專利權)人: | 福州大學 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06K9/62 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 陳明鑫;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 維和 tri lightgbm 異常 流量 檢測 方法 | ||
1.一種基于半監督降維和Tri-LightGBM的異常流量檢測方法,其特征在于,包括以下步驟:
步驟S1:對網絡流量數據進行采集,并對采集到的數據進行粒度細化、特征提取與標記,并分為標記數據和無標記數據;
步驟S2:對數據進行預處理,得到標記樣本和無標記樣本;
步驟S3:采用Fisher Score和信息增益對標記樣本進行多策略的特征組合,并結合無標記樣本,采用PCA將多特征轉化為綜合特征;
所述步驟S3具體為:
步驟S31:根據下式計算Fisher Score,然后根據分值對特征重要性進行降序排序;
式中:給定特征集{f1,f2,…,fm},ui表示樣本中第i個特征fi的均值,表示樣本中第i個特征fi在第k類中的均值,表示第i個特征fi在第k類樣本的方差,nk表示第k類樣本的數目,F(fi)表示第i個特征的Fisher分值;
步驟S32:根據下式計算信息增益,并根據分值對特征重要性進行降序排序
式中:給定數據集{x1,x2,…,xm},p(xi)是選擇某種分類方式的概率,S是樣本集合,Sv是S中特征A上的值等于v的樣本集合,Entropy(S)是信息期望值,特征A的信息增益定義為原信息需求與新信息需求之差,以Gain(A)表示;
步驟S33:將Fisher Score和信息增益這兩種策略結合,組合特征選擇新特征子集S,作為綜合特征;
步驟S4:構建三個基本分類器LightGBM,并基于標記樣本進行初始化;
步驟S5:根據初始化后的三個基本分類器LightGBM,生成未標記數據的偽標記,并基于偽標記數據和標記樣本數據用于迭代更新基本分類器;
步驟S6:基于投票方法,將三個基本分類器融合為一個強分類器,用于對異常流量檢測。
2.根據權利要求1所述的基于半監督降維和Tri-LightGBM的異常流量檢測方法,其特征在于:所述預處理包括字符數據映射和歸一化處理。
3.根據權利要求1所述的基于半監督降維和Tri-LightGBM的異常流量檢測方法,其特征在于,所述步驟S33具體為:給定包含M個特征的數據集,FS={F11,F12,…,F1M}是按FisherScore排序的特征序列,FI={F21,F22,…,F2M}是按信息增益分數排序的特征序列,合并末尾N項特征,并從原始特征集F中過濾掉它們;
組合特征選擇后的新特征子集S定義如下式:
S=F-{{F1(M+N-1),...,F1M}∪{F2(M+N-1),...,F2M}}。
4.根據權利要求1所述的基于半監督降維和Tri-LightGBM的異常流量檢測方法,其特征在于,所述步驟S4具體為:對原始標記數據集A進行Bootstrap采樣來獲得三個帶標簽的訓練集,并用其訓練生成三個基本分類器LightGBM1,LightGBM2,LightGBM3。
5.根據權利要求4所述的基于半監督降維和Tri-LightGBM的異常流量檢測方法,其特征在于,所述步驟S5具體為:
步驟S51:選定基本分類器LightGBM1,將另外兩個分類器LightGBM2和LightGBM3作為輔助分類器,分別在未標記數據集B上預測得到標記結果B2和B3,并將B2與B3中具有相同標記結果的樣本與標記組成集合B1;
步驟S52:按照類別之間的樣本比率分別進行抽取,對集合B1采用基于標記類別的分層抽樣得到B1new,降低同一類別的樣本被抽到的概率,在數據集(A+B1new)上重新訓練分類器LightGBM1;
步驟S53:重復步驟S51與步驟S52直到滿足終止條件;
步驟S54:同樣的分別選定基本分類器LightGBM2和LightGBM3,根據步驟S51-S53,進行重新訓練基本分類器LightGBM2和LightGBM3。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010892200.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種快速合成V-型聚磷酸銨的方法
- 下一篇:一種彈性蛋白肽的制備方法





