[發明專利]基于機器學習的惡意文件檢測方法及系統在審
| 申請號: | 202110231625.9 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN112966267A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 王卓超;于金龍;王智民;王高杰 | 申請(專利權)人: | 北京六方云信息技術有限公司;北京六方云科技有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06N20/00 |
| 代理公司: | 北京潤平知識產權代理有限公司 11283 | 代理人: | 肖冰濱;王曉曉 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 惡意 文件 檢測 方法 系統 | ||
本發明提供一種基于機器學習的惡意文件檢測方法及系統,屬于信息安全技術領域。所述方法包括:識別待測文件的文件類型;提取所述待測文件的特征;將所述待測文件的特征輸入與所述待測文件的文件類型對應的訓練好的分類器中分類計算,得到所述待測文件的分類結果。使用該方法在文件發生變種、混淆的情況下依然可以識別出惡意文件,且占用資源少,能夠快速得到檢測結果。
技術領域
本發明涉及信息安全技術領域,具體地涉及一種基于機器學習的惡意文件檢測方法以及一種基于機器學習的惡意文件檢測系統。
背景技術
惡意文件檢測是網絡安全領域重要的課題,近年來,惡意文件的數量呈指數增長,傳統的處理方式已經不能及時有效的處理鑒定海量的數據。
傳統的惡意文件檢測技術無外乎兩種,一種是基于靜態特征的檢測分析,例如,基于應用程序編程接口序列的檢測方法,將文件的編程接口特征提取出來,建立特征庫用于惡意文件的檢測。這一類的檢測技術雖然對軟件代碼的分析速度比較快,但惡意文件可以通過代碼混淆、變種等方式對抗這些檢測。因此靜態檢測存在誤報率高,無法識別混淆、變種的文件,容易被繞過的問題。
另一種是基于動態特征的檢測方式,例如,基于沙箱的惡意文件檢測,通過在沙箱環境中觀察惡意文件的行為特征,從而判斷出文件是否是惡意的。這種方法雖然能夠解決在靜態檢測中存在的準確率不夠的問題,但是這種算法消耗大量的資源,耗時較為嚴重。因此動態檢測存在檢測效率低,資源消耗嚴重問題。
發明內容
本發明實施方式的目的是提供一種基于機器學習的惡意文件檢測方法及系統,使用該方法在文件發生變種、混淆的情況下依然可以識別出惡意文件,且占用資源少,能夠快速得到檢測結果。
為了實現上述目的,本發明第一方面提供一種基于機器學習的惡意文件檢測方法,所述方法包括:
識別待測文件的文件類型;
提取所述待測文件的特征;
將所述待測文件的特征輸入與所述待測文件的文件類型對應的訓練好的分類器中分類計算,得到所述待測文件的分類結果。
進一步地,所述識別待測文件的文件類型,包括:
獲取待測文件的文件頭數據;
根據所述文件頭數據識別所述待測文件的文件類型。文件頭數據用于顯示這個文件的實際用法,并且不容易人為修改,根據文件頭數據確定的文件類型更準確。
可選的,所述特征包括:所述待測文件的熵序列的統計特征、所述待測文件中每個字符的字符占比以及所述待測文件中的“https”字段個數。
進一步地,所述提取所述待測文件的特征,包括:
將所述待測文件轉換為二進制數據;
將所述二進制數據劃分為預設長度的數據塊;
計算每個所述數據塊的信息熵,得到所述待測文件的熵序列;
計算所述熵序列的統計特征;
計算所述待測文件中每個字符的字符占比;
計算所述待測文件中的“https”字段個數。通過將待測文件劃分為若干塊后,計算每個數據塊的信息熵,再對整個文件的所有數據塊的信息熵進行統計,能夠有效檢測出待測文件中較短的惡意片段,準確率更高。
可選的,所述統計特征包括:平均值、方差、最大值以及最小值。
可選的,所述訓練好的分類器的訓練過程包括:
收集一定數量的訓練數據文件;
識別訓練數據文件的文件類型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京六方云信息技術有限公司;北京六方云科技有限公司,未經北京六方云信息技術有限公司;北京六方云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110231625.9/2.html,轉載請聲明來源鉆瓜專利網。





