[發明專利]一種挖礦惡意軟件的識別方法、系統和存儲介質有效
| 申請號: | 202110471943.2 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113139189B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 李樹棟;張倩青;吳曉波;蔣來源;韓偉紅;方濱興;田志宏;殷麗華;顧釗銓;秦丹一 | 申請(專利權)人: | 廣州大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F40/216;G06F40/30;G06K9/62;G06N20/20 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 惡意 軟件 識別 方法 系統 存儲 介質 | ||
1.一種挖礦惡意軟件的識別方法,其特征在于,包括以下步驟:
數據預處理,對二進制樣本進行多維度數據操作,得到對應的不同維度的特征數據;
所述多維度數據操作包括:
對二進制文件樣本以二進制字節碼的形式讀取文件,然后再解碼成字符串,并篩選出長度在一定區間內的字符串;
提取二進制文件樣本中的定義的文本數據,包括特征操作函數名、動態鏈接庫以及與挖礦軟件有關的文本數據;
對二進制文件樣本反匯編,對其節區大小進行特征統計;
對二進制文件樣本進行反匯編獲取其入口函數數據;
文本特征提取,使用TF-IDF算法結合n-gram對所述不同維度的特征數據進行特征提取并向量化;
基于Stacking構建多模型集成的挖礦惡意軟件識別模型并得到預測結果,所述Stacking的步驟包括:將不同維度的特征數據集劃分為訓練數據集和測試數據集;基于XGBoost算法在訓練集中進行K折交叉驗證訓練并得到基學習器以及基學習器的訓練結果;基于LightGBM算法在所述基學習器的訓練結果中進行訓練并得到元學習器;利用所述基學習器和元學習器對測試數據集進行預測并得到最終預測結果。
2.根據權利要求1所述的一種挖礦惡意軟件的識別方法,其特征在于,所述使用TF-IDF算法結合n-gram對所述不同維度的特征數據進行特征提取并向量化具體步驟為:
利用所述不同維度的特征數據先生成n-gram的詞條;
分別統計每個詞條出現的詞頻,為其附上一個權值參數;
計算每個詞條的最終權重。
3.根據權利要求2所述的一種挖礦惡意軟件的識別方法,其特征在于,所述每個詞條出現的詞頻計算公式為:
其中,TFi,j為詞條i在樣本j中出現的頻率;ni,j為詞條i在樣本j中出現的次數;∑knk,j為樣本j中出現的總詞條數;
所述權值參數計算公式為:
其中,IDFi,j為樣本j中詞條i附上的權值參數;|D|為總樣本數,|j:i∈dj|為包含詞條i的樣本數目;
所述每個詞條的最終權重TF-IDFi,j的計算公式為:
TF-IDFi,j=TFi,j×IDFi,j。
4.根據權利要求2所述的一種挖礦惡意軟件的識別方法,其特征在于,所述生成n-gram的詞條的過程中,過濾頻率占比高于0.8以及頻率值低于3的詞條,根據實際生成的詞條情況,限制詞條個數在[1000,5000]區間內;所述統計每個詞條出現的詞頻的過程中,對字符串數據的n-gram統計1-gram的詞條特征,對文本數據的n-gram統計1-gram和2-gram的詞條特征,對入口函數的n-gram統計2-gram、3-gram、4-gram和5-gram的詞條特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州大學,未經廣州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110471943.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種消防泵水流檢測控制裝置
- 下一篇:一種基于圓球搖擺機制的搖擺墻





