[發(fā)明專利]一種用于惡意WebShell檢測的深度集成學(xué)習(xí)模型構(gòu)建方法在審
| 申請?zhí)枺?/td> | 202110321377.7 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN112948834A | 公開(公告)日: | 2021-06-11 |
| 發(fā)明(設(shè)計)人: | 艾壯;陸亞平 | 申請(專利權(quán))人: | 國藥(武漢)醫(yī)學(xué)實驗室有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 武漢藍寶石專利代理事務(wù)所(特殊普通合伙) 42242 | 代理人: | 謝洋 |
| 地址: | 430000 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 惡意 webshell 檢測 深度 集成 學(xué)習(xí) 模型 構(gòu)建 方法 | ||
本發(fā)明涉及一種用于惡意WebShell檢測的深度集成學(xué)習(xí)模型構(gòu)建方法,包括:獲取正常樣本與惡意WebShell樣本并隨機打亂,按照4:1的比例分為訓(xùn)練集和測試集;提取訓(xùn)練集和測試集中各個樣本的動態(tài)特征和靜態(tài)特征并進行組合,得到訓(xùn)練集特征集合和測試集特征集合;選取m個基分類器,利用所述訓(xùn)練集特征集合,采用K折交叉驗證方法對深度集成學(xué)習(xí)模型進行訓(xùn)練,得到各基分類器的權(quán)重值;利用所述測試集特征集合作為所述深度集成學(xué)習(xí)模型的輸入,進行模型測試,得到測試集樣本的綜合平均預(yù)測概率值,并對所述深度集成學(xué)習(xí)模型進行評估。該方法基于深度集成學(xué)習(xí),可以提高檢測率,能夠完好的吸收機器學(xué)習(xí)與深度學(xué)習(xí)之間的優(yōu)點。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種用于惡意WebShell檢測的深度集成學(xué)習(xí)模型構(gòu)建方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的快速發(fā)展,人們足不出戶就可以獲取到自己在網(wǎng)上預(yù)定的一切物品,這種生活方式將大量的個人信息遍布在各個網(wǎng)絡(luò)上,導(dǎo)致各大互聯(lián)網(wǎng)公司存儲并如何去保護這些數(shù)據(jù)成為了一大難題。最近大量黑客利用一些手段非法獲取這些數(shù)據(jù)進行謀利,最常見的方式即為上傳各種惡意腳本文件去獲取數(shù)據(jù)庫信息從而獲取私人信息。網(wǎng)站管理員如何去從正常文件中找出這些惡意文件成為一大難題。其中最為常見的為以php開發(fā)的網(wǎng)站中的惡意php文件。因此需要一種惡意php文件檢測方法來幫助網(wǎng)站管理員快速查找惡意文件。
而現(xiàn)有的檢測模型大都存在以下幾個問題:
A:不能完全保留WebShell原始特征,也就是沒有保留opcode編碼的信息,而這個正好是最能體現(xiàn)這個WebShell樣本的特征信息。
B:WebShell特征信息的重要性,可以體現(xiàn)哪一些特征對分類重要性。
C:在檢測WebShell樣本中的機器學(xué)習(xí)模型,過于簡單,檢測率不高;深度學(xué)習(xí)模型,過于復(fù)雜,檢測率很高,但是沒有可解釋性。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中存在的一些技術(shù)問題,提供一種用于惡意WebShell檢測的深度集成學(xué)習(xí)模型構(gòu)建方法,該方法基于深度集成學(xué)習(xí),可以提高檢測率,能夠完好的吸收機器學(xué)習(xí)與深度學(xué)習(xí)之間的優(yōu)點。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:
本發(fā)明提供一種用于惡意WebShell檢測的深度集成學(xué)習(xí)模型構(gòu)建方法,包括以下步驟:
獲取構(gòu)建模型需要的正常樣本與惡意WebShell樣本,并將正常樣本和惡意WebShell隨機打亂,按照4:1的比例分為訓(xùn)練集和測試集;
分別提取訓(xùn)練集和測試集中各個樣本的動態(tài)特征和靜態(tài)特征并進行組合,得到訓(xùn)練集特征集合和測試集特征集合;
選取m個基分類器,m≥3,利用所述訓(xùn)練集特征集合,采用K折交叉驗證方法對深度集成學(xué)習(xí)模型進行訓(xùn)練,得到各基分類器的權(quán)重值;
利用所述測試集特征集合作為所述深度集成學(xué)習(xí)模型的輸入,進行模型測試,得到測試集樣本的綜合平均預(yù)測概率值,并根據(jù)所述綜合平均預(yù)測概率值對所述深度集成學(xué)習(xí)模型進行評估。
進一步的,獲取構(gòu)建模型需要的正常樣本與惡意WebShell樣本時,對獲取的樣本文件執(zhí)行去重操作。
進一步的,所述動態(tài)特征包括操作碼序列動態(tài)特征,所述靜態(tài)特征包括字符串長度特征、文件重合指數(shù)IC特征、信息熵特征、特征碼匹配特征。
對于操作碼序列動態(tài)特征的抽取,采用VLD工具進行。VLD工具:VLD(Vulcan LogicDumper)是一個在Zend引擎(Zend引擎是開源的解釋php語言的腳本引擎)中,以掛鉤的方式實現(xiàn)的用于輸出PHP腳本生成的中間代碼(opcode)的擴展。
a:字符串長度靜態(tài)特征:最長的字符串也許潛在的被惡意編碼或者加密處理,因此可以提供一種檢測WebShell樣本的特征數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國藥(武漢)醫(yī)學(xué)實驗室有限公司,未經(jīng)國藥(武漢)醫(yī)學(xué)實驗室有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110321377.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 惡意特征數(shù)據(jù)庫的建立方法、惡意對象檢測方法及其裝置
- 用于檢測惡意鏈接的方法及系統(tǒng)
- 惡意信息識別方法、惡意信息識別裝置及系統(tǒng)
- 主動式移動終端惡意軟件網(wǎng)絡(luò)流量數(shù)據(jù)集獲取方法及系統(tǒng)
- 一種大數(shù)據(jù)告警平臺系統(tǒng)及其方法
- 一種追溯惡意進程的方法、裝置及存儲介質(zhì)
- 一種相似惡意軟件推薦方法、裝置、介質(zhì)和設(shè)備
- 軟件惡意行為檢測方法及系統(tǒng)
- 惡意樣本增強方法、惡意程序檢測方法及對應(yīng)裝置
- 惡意語音樣本的確定方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 一種WebShell的檢測方法及系統(tǒng)
- WebShell檢測方法及裝置
- 一種基于模型融合的webshell檢測方法
- 基于RASP提取webshell軟件基因進行webshell檢測的方法
- 一種webshell檢測方法以及裝置
- webshell流量數(shù)據(jù)聚類分析方法以及控制器和介質(zhì)
- 一種遠程精準(zhǔn)識別WebShell后門的方法
- 基于Relief算法的webshell檢測方法及裝置
- 一種基于數(shù)據(jù)流的Webshell靜態(tài)檢測方法及電子設(shè)備
- 一種基于圖像分析的Webshell檢測方法、終端設(shè)備及存儲介質(zhì)





