[發明專利]基于采樣與特征約簡的非平衡數據集轉換的入侵檢測方法及系統在審
| 申請號: | 202010371648.5 | 申請日: | 2020-05-06 |
| 公開(公告)號: | CN112085046A | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 龍春;魏金俠;萬巍;趙靜;楊帆 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京知舟專利事務所(普通合伙) 11550 | 代理人: | 郭韞 |
| 地址: | 100083 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 采樣 特征 平衡 數據 轉換 入侵 檢測 方法 系統 | ||
本發明提供一種基于采樣與特征約簡的非平衡數據集轉換的入侵檢測方法及系統,該方法首先對非平衡數據集中的樣本進行采樣,然后利用特征與類別標簽之間的相關性對特征進行從大到小的排序;再從特征的最后一維開始按照順序依次刪除一維特征,每刪除一維特征就將減少一維特征的樣本數據集輸入隨機森林模型,計算這些樣本對應的ACC值,比較所有ACC值,選取最大ACC值對應的特征維度作為特征約簡的目標特征維度。通過以上轉換方法獲得的新的非平衡數據輸入到多分類SVM進行訓練,獲得的檢測模型對待檢測網絡日志數據進行檢測,提高了由于樣本不平衡導致的檢測準確率低的問題。
技術領域
本發明屬于網絡入侵檢測技術領域,特別涉及一種基于采樣與特征約簡的非平衡數據集轉換的入侵檢測方法及系統。
背景技術
隨著互聯網的發展,各種網絡攻擊層出不窮,網絡的安全受到威脅。入侵檢測的目的是對網絡數據的分析,發現可疑的攻擊類型,通常采用基于機器視覺、神經網絡等方法對網絡的入侵行為進行檢測。其檢測過程一般包括數據采集、分析、處理等步驟。數據采集一般是對網絡日志數據進行采集,但是現有的日志數據存在著數據集不平衡問題,進而降低了網絡入侵風險檢測的準確性。
發明內容
為了解決現有技術中存在的問題,本發明提供一種基于采樣與特征約簡的非平衡數據集轉換的入侵檢測方法及系統。
為達到上述目的,本發明采用如下技術方案:
本發明提供一種基于采樣與特征約簡的非平衡數據集轉換的入侵檢測方法,該檢測方法包括:
獲取網絡日志數據中的非平衡數據集,所述非平衡數據集為少數類樣本集;
對非平衡數據集進行采樣處理,獲得新的非平衡數據集;
對新的非平衡數據集進行降維處理,轉換成特征約簡的新的非平衡數據集。
優選的技術方案,所述方法還包括:
將特征約簡的新的非平衡數據集輸入到多分類SVM模型中進行訓練,獲得檢測模型;
利用檢測模型對待檢測的網絡日志數據進行檢測,輸出檢測結果。
優選的技術方案,所述對非平衡數據集進行采樣處理為對少數類樣本集進行過采樣,形成新的少數類樣本集,即為新的非平衡數據集,過采樣包括利用S-NKSMOTE算法對少數類樣本集進行過采樣,具體為:
獲得少數類樣本集內樣本x的k個近鄰樣本;
將k個近鄰樣本中的少數類樣本個數與多數類樣本個數進行比較,當少數類樣本的個數多于多數類樣本的個數時,標記x為安全樣本,當少數類樣本的個數少于多數類樣本的個數,且存在少數類樣本,標記x為危險樣本,當k個近鄰樣本全是多數類樣本,標記x為噪聲樣本;
當x為噪聲樣本時,在少數類樣本集中隨機選擇一個樣本x’,依照以下方式生成靠近少數類樣本的新樣本Xnew,所有新樣本形成了新的少數類樣本集;
Xnew=x+rand(0.5,1)·(x’-x)
當x不是噪聲樣本時,從其k個近鄰樣本中隨機選擇1個樣本x’,如果x’屬于多數類樣本,則依照以下方式生成靠近x的新樣本Xnew,所有新樣本形成了新的少數類樣本集;
Xnew=x+rand(0,0.5)·(x’-x)
如果x’屬于少數類樣本,則依照下列公式生成靠近x的新樣本Xnew,所有新樣本形成了新的少數類樣本集:
Xnew=x+rand(0,1)·(x’-x)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010371648.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:緊固夾
- 下一篇:介電陶瓷組合物和包括其的多層陶瓷電容器





