[發明專利]基于家族基因碼的惡意代碼快速歸類方法有效
| 申請號: | 201410571621.5 | 申請日: | 2014-10-23 |
| 公開(公告)號: | CN104331436A | 公開(公告)日: | 2015-02-04 |
| 發明(設計)人: | 沈超;程顥;張澤華;管曉宏 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F21/56 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 陸萬壽 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 家族 基因 惡意代碼 快速 歸類 方法 | ||
技術領域
本發明涉及計算機安全防護技術,特別涉及一種計算機惡意代碼歸類方法。
背景技術
隨著社會的進步與科技的發展,計算機已經滲透到了人們生活的方方面面,越來越多的個人信息(如圖片、視頻、聊天記錄等)和敏感信息(如銀行賬號、商業資料等)被存儲于計算機之中。同時,近年來以盜用、破壞這些信息為主要目的的惡意代碼數量急劇增加,且呈現出變種多、智能化的特點,這使得計算機惡意代碼的識別和分類問題引起各國政府和民眾的極大重視。
現有的惡意代碼歸類方法主要從惡意代碼靜態特征或動態特征出發,大多集中在對已知的惡意代碼的聚類分類上,對新增惡意代碼的分類效果較差,同時惡意代碼行為的特征分析形式單一且樣本數量較少,缺乏準確性和普適性。
發明內容
本發明的目的是提供一種可以快速且準確地對計算機惡意代碼進行歸類的方法,特別是一種利用海量惡意代碼樣本經過聚類后得到的惡意代碼家族基因碼來實現對新增惡意代碼快速準確歸類的方法。
為達到以上目的,本發明是采取如下技術方案實現的:
一種基于家族基因碼的惡意代碼快速歸類方法,其特征在于,包括下述兩大步驟:
第一步,惡意代碼家族基因碼的生成,包括下述分步驟:
(1)獲取由M個惡意代碼樣本構成的惡意代碼樣本集,其中,M至少為1000萬;
(2)從惡意代碼樣本中提取行為信息;
(3)對所有惡意代碼樣本的各種行為出現的頻數進行統計排序,選擇頻數總和不小于3的行為作為刻畫惡意代碼樣本的行為向量;
(4)使用行為向量的每個元素在惡意代碼行為信息中出現的頻數構成該惡意代碼樣本的特征向量;
(5)采用曼哈頓距離算法計算惡意代碼樣本特征向量之間的距離,形成惡意代碼樣本集的距離矩陣D={dij}M×M,其中,dij表示惡意代碼樣本i到惡意代碼樣本j的距離,矩陣D關于對角線對稱;
(6)基于惡意代碼樣本集的距離矩陣D,從惡意代碼樣本集中提取出惡意代碼家族基因碼,以方便生成惡意代碼家族。
第二步,惡意代碼快速歸類,包括下述分步驟:
(1)針對新增的惡意代碼樣本,提取其行為信息,與在惡意代碼樣本集中得到的行為向量進行比對,將行為向量中每個元素在新增惡意代碼樣本的行為信息中出現的頻數作為該樣本的特征向量;
(2)將新增惡意代碼樣本的特征向量與惡意代碼家族基因碼進行匹配,對新增惡意代碼所屬的類別進行判定。
上述方法中,第一步(2)中所述惡意代碼的行為信息是指惡意代碼在執行過程中對計算機資源的訪問行為,包括API導入表的訪問行為、文件操作行為、進程操作行為、注冊表操作行為、動態鏈接庫調用行為、鉤子函數調用行為。
第一步(3)中所述選擇頻數總和不小于3的行為作為刻畫惡意代碼樣本的行為向量,其具體步驟為:
(1)對惡意代碼樣本集中每個樣本的行為信息進行統計分析,利用出現過的所有行為構成初始特征集;
(2)計算初始特征集中每個元素在所有樣本的行為信息中出現頻數的總和,排序并去除出現頻數總和為1和2的元素,使用剩余的元素作為刻畫惡意代碼樣本的特征。
第一步(6)中所述從樣本集中提取惡意代碼家族基因碼的具體方法為:
1)將惡意代碼樣本間的距離dij(i<j)進行降序排列,取排列結果的中值作為截斷距離dc;
2)采用高斯核函數計算每個惡意代碼樣本的聚集度ρi,表示該樣本被它的鄰居樣本的包裹程度,計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410571621.5/2.html,轉載請聲明來源鉆瓜專利網。





