[發明專利]勒索軟件檢測的方法在審
申請號: | 201710365035.9 | 申請日: | 2017-05-22 |
公開(公告)號: | CN107273747A | 公開(公告)日: | 2017-10-20 |
發明(設計)人: | 蘆天亮;龔琪;曹金璇;張璐 | 申請(專利權)人: | 中國人民公安大學 |
主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F21/53;H04L29/06 |
代理公司: | 北京冠和權律師事務所11399 | 代理人: | 李建華 |
地址: | 100076 北京市大興區觀*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 勒索 軟件 檢測 方法 | ||
1.一種勒索軟件檢測的方法,其特征在于,所述勒索軟件檢測的方法分為先后順序執行的兩個部分,
1)勒索軟件的檢測模型訓練:
首先,需要確定訓練勒索軟件檢測模型的訓練集,訓練集分為2個子集:①勒索軟件樣本集合;②正常樣本集合;利用分布式沙箱對訓練集合中樣本進行動態分析,提取沙箱分析后的報告;
2)勒索軟件的檢測模型的測試;
根據特征構造算法建立特征集,采用五折交叉法進行模型的訓練與測試,使用準確率這樣的指標衡量模型性能。
2.根據權利要求1所述的勒索軟件檢測的方法,其特征在于,將所述樣本的動態分析的實驗環境設置在虛擬機中,設置了快照與檢查機制,當系統檢測到惡意樣本嘗試逃逸分析機時,啟動快照回滾到干凈狀態。
3.根據權利要求1所述的勒索軟件檢測的方法,其特征在于,所述勒索軟件的檢測模型包括:勒索軟件樣本集合和正常樣本集合;
把所述勒索軟件樣本集合和正常樣本集合利用分布式沙箱對訓練集合中的樣本進行動態分析,提取沙箱分析后的報告;
根據特征構造算法建立特征集,采用五折交叉法進行模型的訓練與測試,使用準確率這樣的指標衡量模型性能。
所述特征集分別為API函數特征、行為特征以及內存特征。
4.根據權利要求3所述的勒索軟件檢測的方法,其特征在于,所述API函數特征的類別包括加密應用程序API類crypto、系統進程管理類API類process、進程服務類APIservices、注冊表類APIregistry、資源類APIresource。
5.根據權利要求3所述的勒索軟件檢測的方法,其特征在于,所述行為特征的網絡行為構建一組特征,表示樣本的網絡行為中建立連接的主機域名個數,建立的tcp或者udp連接。
6.根據權利要求3所述的勒索軟件檢測的方法,其特征在于,所述注冊表行為包括注冊表的訪問、讀取、修改與刪除。
7.根據權利要求3所述的勒索軟件檢測的方法,其特征在于,所述文件行為定義了一組描述對敏感文件的向量,捕獲樣本對敏感文件的操作,敏感文件集由"dll","exe","jpg","doc"這樣的擴展名組成。
8.根據權利要求3所述的勒索軟件檢測的方法,其特征在于,所述文件夾行為包括敏感路徑刪除、移動、讀取、遍歷的計數值。
9.根據權利要求8所述的勒索軟件檢測的方法,其特征在于,所述內存特征基于沙箱的行為捕獲不能完全捕獲樣本的行為,結合Volatility內存取證工具以及Yara匹配工具,使用內存行為特征對沙箱捕獲到的行為進行補充;在沙箱分析樣本完畢后,首先使用Volatility獲取執行后的沙箱的內存鏡像,再使用Yara匹配工具根據匹配規則對鏡像進行掃描、分析,獲取行為標簽。
10.根據權利要求9所述的勒索軟件檢測的方法,其特征在于,所述特征構造算法為隨機森林(Random Forest,RF)算法有更高的穩定性和魯棒性,恰當的訓練參數可以獲得更好的分類,隨機森林算法是Bagging算法和Random Subspace算法的組合,基本構成單元是決策樹,通過多棵決策樹的組合h1(x),h2(x),…,hn(x)來提高分類的準確性,通過子樹的最終投票對未知類別的樣本進行分類。
所述樣本T的信息熵為公式(1)所示:
其中,Pi表示類別i樣本占總樣本數量的比例,在特征A作用后,樣本T被分成了k個部分,此時基尼系數計算為公式(2)和公式(3)所示:
RF中降低過擬合的方式為剪枝,使用悲觀剪枝(Pessimistic Error Pruning)進行剪枝,PEP首先計算規則在它應用的訓練樣例上的精度,然后假定此估計精度為二項式分布,并計算它的標準差。對于給定的置信區間,采用下界估計作為規則性能的度量,其中當節點Tt滿足公式(4)時,Tt就會被裁剪掉,e'(t)≤e'(Tt)+Se(e'(Tt))(4)
e(t)為結點t的誤差;i為覆蓋Tt的葉子結點;Nt為子樹Tt的葉子樹;n(t)為在結點t處的訓練集合數量。
在進行RF框架選擇和改進時,選取完最佳子樹特征集后,另一個影響過擬合能力的參數為基學習器。RF框架中,基學習器(base learner)的偏差小但方差較大,RF框架中整體模型的方差為:
基學習器數量為B,基學習器方差為σ2,兩兩基學習器間的相關性為ρ。所以基于PEP剪枝算法進行剪枝并結合網格搜索法選取基學習器的最優值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民公安大學,未經中國人民公安大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710365035.9/1.html,轉載請聲明來源鉆瓜專利網。