[發明專利]一種基于隨機森林算法的惡意文件檢測技術在審
| 申請號: | 201810261903.3 | 申請日: | 2018-03-28 |
| 公開(公告)號: | CN110334510A | 公開(公告)日: | 2019-10-15 |
| 發明(設計)人: | 楊育斌;吳智東;柯宗貴 | 申請(專利權)人: | 藍盾信息安全技術有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F21/53;G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510665 廣東省廣州市廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 惡意文件 檢測技術 隨機森林 算法 有效特征提取 使用機器 特征匹配 學習算法 有效識別 檢測 | ||
本發明公開了一種基于隨機森林算法的惡意文件檢測技術,該方法為了解決現有技術中使用特征匹配方法檢測惡意文件的缺點或不足,采用了有效特征提取并使用機器學習算法檢測惡意文件的方案,從而實現了準確有效識別已知和未知惡意文件的目的。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種基于隨機森林算法的惡意文件檢測技術。
背景技術
自互聯網的普及和發展過程中,具有毀壞系統、篡改文件、影響系統穩定與執行效率、竊取信息等的計算機惡意程序一直是計算機使用中的重要問題。這些惡意程序包括特洛伊木馬程序,勒索軟件,間諜程序等,它們可能對企業或用戶造成極大的危害或是極大的財產損失。因此,使用有效的手段進行精確的惡意文件識別,成為計算機安全防御的一個重點。
目前的檢測手段主要采用基于特征碼的查殺和啟發式的人工特征行為查殺。其中基于特征碼的查殺是基于殺毒軟件技術的檢測,這種方法無法有效識別未知惡意程序,只有當惡意程序的特征碼加入病毒庫后才能被檢測。而啟發式的人工特征行為查殺是通過對大量病毒的行為特征進行描述分析,將經典的病毒行為特征串作為檢測標準,主要通過經驗判,存在較高的漏報率和誤報率。
上述基于規則的檢測方案只能檢測已知的惡意文件類型,但無法更好地對日益更新的惡意文件類型進行識別。而通過行為識別未知的惡意文件就顯得尤為重要。
發明內容
本發明通過采集惡意文件與正常文件在沙箱中的文件、網絡、注冊表、進程等行為信息,構建9大類行為特征,組成特征向量。該特征向量作為機器學習算法的輸入數據,選取集成算法隨機森林,建立有監督的檢測模型。當新的文件行為數據產生,該模型能準確有效的識別出文件惡意與否。
本發明技術方案帶來的有益效果:
1、漏報和誤報低。通過采集惡意文件在沙箱的動態行為特征,構建機器學習的分類器進行檢測,相對基于傳統的規則匹配,能有效地減少漏報率和誤報率。
2、模型容識別率高。可以通過豐富訓練樣本庫的方式,增強模型的識別能力,使該模型能發現已知和未知種類的惡意文件。
3、消耗系統資源低。模型一旦訓練完成,可以直接導出稱為文件,當需要檢測新樣本文件時,只需要導入該模型文件,便可完成檢測,極大低減少系統資源的消耗。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。
圖1是本發明流程圖圖;
具體實施方式
本發明提供的一種基于隨機森林算法的惡意文件檢測技術方案如下所述:
步驟1:收集惡意樣本和正常樣本。分別從開源病毒網站收集公開的惡意、病毒文件和正常無惡意的文件,作為訓練樣本。
步驟2:搭建安裝沙箱模塊并收集惡意樣本和正常樣本在沙箱中產生的所有行為信息。
步驟3:根據window底層API的作用,構造9大類行為特征。
步驟4:將沙箱收集的樣本數據,處理為9大行為特征向量,作為訓練樣本特征向量。
步驟5:使用處理好的訓練樣本特征向量,輸入到隨機森林算法,學習一個有監督的分類器。
步驟6:收集待檢測未知樣本程序文件的沙箱行為數據。
步驟7:計算待檢測樣本的9大類行為特征,構造待檢測特征向量。
步驟8:使用訓練好的隨機森林模型,檢測待檢測樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于藍盾信息安全技術有限公司,未經藍盾信息安全技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810261903.3/2.html,轉載請聲明來源鉆瓜專利網。





