[發明專利]一種面向惡意流量檢測正負樣本均衡生成的過采樣方法有效
| 申請號: | 202011093930.8 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112235293B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 郭陽明;劉明明;姚紅靜;劉尊;王曉東;李庚;高建軍 | 申請(專利權)人: | 西北工業大學;西安蒙頓信息科技有限公司;西北工業大學深圳研究院 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06K9/62 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 金鳳 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 惡意 流量 檢測 正負 樣本 均衡 生成 采樣 方法 | ||
1.一種面向惡意流量檢測正負樣本均衡生成的過采樣方法,其特征在于包括下述步驟:
第一步,提取接近決策邊界的樣本進行分析;
定義T為整個訓練樣本集;S為惡意流量數據樣本,記為負類樣本集合;L為良性流量數據樣本,記為正類樣本集合;
對負類樣本集合S中的每個樣本xi,在整個訓練樣本集T上搜索xi以馬氏距離計算的最近鄰的P個樣本,P的取值根據用戶的需求定義,記其中的少數類樣本數量為P(xi);
若P(xi)=0,說明xi的P個最近樣本全部為多數類,則認為xi是噪聲點,進行丟棄;若P(xi)>P/2,說明xi周圍大部分是其同類,說明xi不在邊界點處,進行丟棄;若0<P(xi)<P/2,則xi是處于邊界的樣本點,選取此類處于邊界的樣本點記為集合Sp;
第二步,對所提取的樣本進行聚類分析,確定最終選擇;
將屬于Sp的任一xi看做單獨的一類,若Sp中有k個樣本,即i=1,2,...k,則有k個聚類,計算任意兩個樣本xi、xj的馬氏距離Dij;
選擇xi∈Sp中每一個樣本xi與其他樣本點間的最小馬氏距離,記為min{dis(xi,xj)},則得到樣本間的平均最小距離d為:
第三步,合成數據點,將新生成的類樣本加入到原始樣本集中,構成最終的訓練樣本集;
具體步驟如下:
根據用戶需求,選取閾值T=d×c,c∈[0,1],尋找Sp中距離最近的兩個樣本,若Dij≤T,將兩個樣本點合并為一類;
Sp中任意同一類兩個樣本點xl、xm,生成新的樣本點sn:
sn=xl+α(xl-xm),α∈[0,1]
將sn加入S集合,構建出新的均衡數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學;西安蒙頓信息科技有限公司;西北工業大學深圳研究院,未經西北工業大學;西安蒙頓信息科技有限公司;西北工業大學深圳研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011093930.8/1.html,轉載請聲明來源鉆瓜專利網。





