[發明專利]一種PHP類型的WebShell檢測方法及其檢測系統在審
| 申請號: | 202011615785.5 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112883373A | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 艾壯;陸亞平 | 申請(專利權)人: | 國藥集團基因科技有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06N20/20 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙) 44316 | 代理人: | 曹衛良 |
| 地址: | 213000 江蘇省常*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 php 類型 webshell 檢測 方法 及其 系統 | ||
1.一種PHP類型的WebShell檢測方法,其特征在于,包括如下步驟:
S1、收集以php為類型的普通網頁文件樣本和WebShell樣本,構建數據集,且從該數據集中提取動態特征和靜態特征;
S2、使用Word2Vec將動態特征進行特征向量化,再將該動態特征與靜態特征合并,構建特征數據,此時將特征數據分為訓練樣本與測試樣本;
S3、使用隨機森林對訓練樣本的訓練特征數據進行特征篩選,剔除不必要的特征;
S4、對經過步驟S3篩選后所留下的訓練特征數據進行集成學習模型的構建,并依據此模型對測試樣本中的測試數據的每一個樣本進行預測,從而得到每一個測試樣本為惡意樣本的概率值。
2.根據權利要求1所述的一種PHP類型的WebShell檢測方法,其特征在于,步驟S1包括:
S11、以PHP為語言開發的網絡框架中提取普通網頁文件樣本,從Github搜集惡意后門文件的WebShell樣本;
S12、提取步驟S11中搜集到的每一個樣本的五種靜態特征,該五種靜態特征包括字符串長度靜態特征、文件重合指數IC靜態特征、信息熵靜態特征、文件壓縮率靜態特征、特征碼匹配靜態特征;
S13、提取WebShell文件的操作碼序列的動態特征。
3.根據權利要求2所述的一種PHP類型的WebShell檢測方法,其特征在于,步驟S2包括:
S21、使用Word2Vec工具將步驟S13中的動態特征進行特征向量化;
S22、將步驟S12中的靜態特征與步驟S21中的動態特征進行合并,構建特征數據,且將該特征數據分割成訓練集、驗證集和測試集。
4.根據權利要求3所述的一種PHP類型的WebShell檢測方法,其特征在于,步驟S3包括:
S31、將特征數據輸入至隨機森林模型中進行特征的篩選,將不重要的特征進行剔除;
S32、SMOTE算法對剔除之后的特征數據在進行樣本的均衡。
5.根據權利要求4所述的一種PHP類型的WebShell檢測方法,其特征在于,步驟S4包括:
S41、將邏輯回歸基分類器、支持向量機基分類器、多層感知機基分類器、隨機森林基分類器組成集成檢測模型;
S42、對集成檢測模型進行優化,獲取每一個基分類器的最佳參數,選擇最優的最佳參數的基分類器輸入到集成學習中作為最優基分類器,從而對驗證集的樣本進行預測,得到樣本的平均預測概率值,再得到基分類器的權重值;
S43、測試集的每一個樣本在集成檢測模型內不同的基分類器預測得到屬于惡意樣本的預測概率值;
S44、根據每一個樣本在基分類器的權重值和測試集中每一個樣本的預測概率值得到最后的預測概率值,從而得到結果。
6.根據權利要求2所述的一種PHP類型的WebShell檢測方法,其特征在于,在步驟S11內,從Github搜集惡意后門文件樣本時,刪除樣本注釋和重復樣本。
7.根據權利要求3所述的一種PHP類型的WebShell檢測方法,其特征在于,在步驟S21內,使用Word2Vec工具將動態特征進行特征向量化時,將PHP語言的操作碼序列轉化為模型所需要的數值特征。
8.一種PHP類型的WebShell檢測系統,其特征在于,包括:
數據預處理模塊,用于對采集的普通網頁文件樣本和WebShell樣本提取動態特征和靜態特征,而且對動態特征進行特征向量化處理,再將處理后的動態特征與靜態特征合并得到特征數據;
特征篩選模塊,用于使用隨機森林對特征數據進行特征篩選,剔除不必要的特征;
集成學習算法模塊,用于對篩選后所留下的訓練特征數據進行集成學習模型的構建,并依據此模型對測試樣本中的測試數據的每一個樣本進行預測,從而得到每一個測試樣本為惡意樣本的概率值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國藥集團基因科技有限公司,未經國藥集團基因科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011615785.5/1.html,轉載請聲明來源鉆瓜專利網。





