[發明專利]一種Webshell檢測方法及系統有效
申請號: | 202110367559.8 | 申請日: | 2021-04-06 |
公開(公告)號: | CN113239352B | 公開(公告)日: | 2022-05-17 |
發明(設計)人: | 劉奇旭;趙子豪;張方嬌;劉井強;譚儒;張金莉;劉潮歌 | 申請(專利權)人: | 中國科學院信息工程研究所 |
主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F40/216;G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 俞達成 |
地址: | 100093 *** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 webshell 檢測 方法 系統 | ||
1.一種Webshell檢測方法,其步驟包括:
1)利用云端Webshell特征庫,更新客戶端Webshell特征庫,其中云端Webshell特征庫包括:若干Webshell樣本文件及相應的模糊哈希值、數據流語法特征、統計學特征和語法結構特征;
2)收集若干正常樣本,獲取正常樣本的統計學特征,并利用Webshell樣本文件與正常樣本的統計學特征進行機器學習訓練,得到統計學文件特征檢測模型,利用Webshell樣本文件與正常樣本的語法結構特征進行深度學習訓練,得到語法結構特征檢測模型;
3)對待檢測網站文件進行源碼獲取,得到源碼文件,并獲取源碼文件的模糊哈希值、數據流語法特征、統計學特征和語法結構特征,并對統計學特征向量化,得到統計學特征表示;
4)分別將源碼文件的模糊哈希值及數據流語法特征,與本地Webshell特征庫中各Webshell樣本文件的模糊哈希值及數據流語法特征進行對比,得到同源相似度檢測結果及數據流語法特征檢測結果;
5)分別將統計學特征表示及語法結構特征,輸入統計學文件特征檢測模型及語法結構特征檢測模型,得到統計學文件特征檢測結果及語法結構特征檢測結果;
6)根據同源相似度檢測結果、數據流語法特征檢測結果、統計學文件特征檢測結果及語法結構特征檢測結果,得到待檢測網站文件的Webshell檢測結果。
2.如權利要求1所述的方法,其特征在于,得到源碼文件后,提取源碼文件的屬性信息,用以對檢測出的Webshell文件進行集中分析與確認;所述屬性信息包括:名稱、源碼語言類型、路徑、大小和上次修改時間。
3.如權利要求1所述的方法,其特征在于,通過模糊哈希算法,獲取源碼文件的模糊哈希值。
4.如權利要求1所述的方法,其特征在于,數據流語法特征包括:數據流傳播過程中的可控資源操作和Webshell特有特征;統計學特征包括:信息熵、重合指數、最長單詞、壓縮比和Webshell特有特征;語法結構特征包括:含有上下文語料的詞袋。
5.如權利要求4所述的方法,其特征在于,Webshell特有特征包括:Webshell名稱、設定的固有變量名、Webshell開發者、攻擊者及其組織的昵稱、郵件地址信息和網站URL;設定的固有變量名包括:c99sh_surl。
6.如權利要求4所述的方法,其特征在于,通過以下步驟得到Webshell樣本文件的語法結構特征:
1)使用N-Gram算法,分別提取Webshell樣本文件的上下文語料特征;
2)將上下文語料特征輸入TF-IDF模型,得到Webshell樣本文件的語法結構特征。
7.如權利要求1所述的方法,其特征在于,機器學習的方法包括:隨機森林方法。
8.如權利要求1所述的方法,其特征在于,通過以下步驟得到語法結構特征檢測模型:
1)將各Webshell樣本文件與正常樣本的語法結構特征,迭代輸入循環神經網絡算法中進行監督學習,生成初步的語法結構特征檢測模型;
2)將測試數據輸入初步的語法結構特征檢測模型,對循環神經網絡算法的參數優化,得到語法結構特征檢測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110367559.8/1.html,轉載請聲明來源鉆瓜專利網。