[發明專利]主機序列入侵檢測方法在審
| 申請號: | 202110015796.8 | 申請日: | 2021-01-05 |
| 公開(公告)號: | CN112699368A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 盧逸君 | 申請(專利權)人: | 廣東省信息安全測評中心 |
| 主分類號: | G06F21/55 | 分類號: | G06F21/55;G06K9/62 |
| 代理公司: | 深圳新創友知識產權代理有限公司 44223 | 代理人: | 孟學英 |
| 地址: | 510098 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主機 序列 入侵 檢測 方法 | ||
本發明公開一種主機序列入侵檢測方法,包括:將主機入侵序列按照不同的命令維度構建特征空間,并按設定比例將所述特征空間隨機分割為訓練數據和測試數據;將所述訓練數據和所述測試數據分別進行正則化生成訓練自變量和測試自變量、訓練因變量和測試因變量;獲得所述lasso線性回歸模型的最佳懲罰約束項系數;根據所述最佳懲罰約束項系數重新對所述訓練自變量進行擬合,生成擬合結果;對所述擬合結果去除系數為0的項,將剩余項作為篩選后的維度;根據所述剩余項,形成新的訓練數據和新的測試數據;對每條所述新的測試數據中的主機序列,根據重新構建的特征空間,執行K近鄰分類,生成判定類別,生成檢測結果。本發明具有較高的準確率。
技術領域
本發明涉及網絡入侵檢測技術領域,特別涉及一種主機序列入侵檢測方法。
背景技術
目前,基于主機系統調用序列的入侵檢測特征提取方法大體有三種。
第一種,基于序列化特征,以基于N-Gram特征建模技術為代表,該方法通過滑動窗口機制記錄正常序列集,并對窗口大小進行訓練,最終獲得合適的窗口大小。其中,N-Gram是一種基于統計語言模型的算法,每一個字節片段稱為gram;該算法的基本思想是將文本里面的內容按照字節進行大小為N的滑動窗口操作,形成了長度是N的字節片段序列。
第二種,基于頻率統計的特征,例如將序列視為文本,序列中的命令視為單詞,通過自然語言處理的方法統計出序列的若干個特征命令,從而對命令集進行建模。典型的統計方法有基于TF-IDF(term frequency–inverse document frequency,)、HMM(HiddenMarkov Model,隱馬爾科夫模型)、詞袋模型等。
第三種,基于詞句向量的嵌入模型。通過NLP(自然語言處理)的方法,從高維空間中抽取命令的距離特征,把序列訓練成一個淺層神經網絡,將訓練集中的每個命令或每串子命令都映射到一個指定維度的向量空間中,再進行降維。
上述方法所存在的共同技術問題是:在訓練樣本較少的情況下,準確率較低。
以上背景技術內容的公開僅用于輔助理解本發明的發明構思及技術方案,其并不必然屬于本發明的現有技術,在沒有明確的證據表明上述內容在本發明的申請日已經公開的情況下,上述背景技術不應當用于評價本發明的新穎性和創造性。
發明內容
本發明提出一種主機序列入侵檢測方法,具有較高的準確率。
在第一方面,本發明提供一種主機序列入侵檢測方法,包括:
將主機入侵序列按照不同的命令維度構建特征空間,并按設定比例將所述特征空間隨機分割為訓練數據和測試數據;
將所述訓練數據和所述測試數據分別進行正則化生成訓練自變量X_train和測試自變量X_test、訓練因變量Y_train和測試因變量Y_test;
使用所述訓練自變量X_train對lasso線性回歸模型進行訓練,獲得所述lasso線性回歸模型的最佳懲罰約束項系數;
根據所述最佳懲罰約束項系數重新對所述訓練自變量X_train進行擬合,生成擬合結果;
對所述擬合結果去除系數為0的項,將剩余項作為篩選后的維度;
根據所述剩余項,重新構建特征空間,形成新的訓練數據和新的測試數據;
對每條所述新的測試數據中的主機序列,根據重新構建的特征空間,執行K近鄰分類,生成判定類別;
根據所述判定類別,生成檢測結果。
在一些優選的實施方式中,使用所述訓練自變量X_train對lasso線性回歸模型進行訓練,獲得所述lasso線性回歸模型的最佳懲罰約束項系數,包括:采用多重交叉驗證的方式求解所述最佳懲罰約束項系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東省信息安全測評中心,未經廣東省信息安全測評中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110015796.8/2.html,轉載請聲明來源鉆瓜專利網。





