[發(fā)明專利]基于文件指令頻度的計算機惡意程序分類系統(tǒng)及分類方法有效
| 申請?zhí)枺?/td> | 200910040996.8 | 申請日: | 2009-07-10 |
| 公開(公告)號: | CN101604363A | 公開(公告)日: | 2009-12-16 |
| 發(fā)明(設計)人: | 葉艷芳;萬里;韓智雪;陳勇 | 申請(專利權)人: | 珠海金山軟件股份有限公司 |
| 主分類號: | G06F21/00 | 分類號: | G06F21/00;G06F17/30 |
| 代理公司: | 廣州新諾專利商標事務所有限公司 | 代理人: | 楊煥軍 |
| 地址: | 519015廣東省珠海市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文件 指令 頻度 計算機 惡意程序 分類 系統(tǒng) 方法 | ||
技術領域
本發(fā)明涉及計算機反惡意程序類軟件領域,尤其涉及一種基于文 件指令頻度的計算機惡意程序分類系統(tǒng)及其方法。
背景技術
目前,計算機反惡意程序軟件對惡意程序處理的基本原理是:從 互聯(lián)網及客戶端收集的海量樣本中,鑒別出所有的惡意程序,并將鑒 別出來的惡意程序,按照惡意程序的特點進行分類(即分成不同的惡 意程序家族);然后對同家族的惡意程序,分析并提取其“通殺”特 征;剩余無法提取“通殺”特征的樣本提取“自動”特征,生成相應 的惡意程序特征庫。根據所生成的惡意程序特征庫,計算機反惡意程 序軟件掃描客戶端計算機中的文件,并判斷每個文件是否與特征庫中 的惡意程序特征相匹配,如果匹配則為惡意程序。這里,“同家族惡 意程序”指傳播途徑、功能、內容或行為相同或相近的惡意程序集合; “通殺”特征指能夠匹配同家族所有惡意程序的特征;“自動”特征 指匹配單一惡意程序的二進制特征。通常,一個“通殺”特征能查殺 的惡意程序要遠高于一個“自動”特征所能匹配的惡意程序。
隨著計算機技術的發(fā)展和軟件的多樣性,惡意代碼的數量急劇增 長,惡意代碼的種類也呈現多樣化發(fā)展的態(tài)勢。但是,這些新出現的 惡意代碼并不是完全沒有共性:有部分惡意程序是在原有代碼基礎上 修改生成的,病毒作者根據原有惡意程序的源代碼,為了繞過反惡意 程序軟件的查殺(即“免殺”),在其基礎上做出了一定的修改;而 且這些新生成的惡意程序之間也是具有共性的。如果能將惡意程序快 速、準確地進行分類(分家族),將極大地提高計算機反惡意程序軟 件處理這些新惡意程序的效率,從而縮短對新惡意程序的處理時間, 同時有利于提高每個特征的查殺能力,從而縮小惡意特征庫的大小。
對于計算機反惡意程序軟件廠商收集到的大量惡意程序樣本,不 同的反惡意程序軟件給出的分類結果各不相同,命名規(guī)則也沒有統(tǒng)一 的標準,即使名稱相同也不一定是同一個家族的樣本,因此分類效果 不盡人意。而依靠人工對收集到的海量惡意程序樣本逐一歸類,已不 可能。近年來,數據挖掘技術的不斷發(fā)展在一定程度上解決了人們處 理海量數據的難題。數據挖掘是從大量的、不完全的、有噪聲的、模 糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是 潛在有用的信息和知識的過程。而聚類算法是數據挖掘領域研究最廣 泛的問題之一。聚類分析是把數據按照相似性歸納成若干類別,同一 類中的數據彼此相似,而不同類中的數據相異。把數據挖掘技術中的 聚類算法應用于計算機反惡意程序類軟件中,可以自動地把具有共性 的同家族惡意程序分成一類,同時把差異較大的惡意程序區(qū)分開來。
發(fā)明內容
本發(fā)明克服了現有技術中的不足,本發(fā)明提出了一種基于文件指 令頻度的計算機惡意程序分類系統(tǒng)。
本發(fā)明的第二目的是提供一種使用上述系統(tǒng)對計算機惡意程序 分類的方法。
為了實現上述第一目的,本發(fā)明采用如下技術方案:
一種基于文件指令頻度的計算機惡意程序分類系統(tǒng),包括:
指令頻度特征提取模塊,其首先解析惡意程序代碼的所有指令, 并通過計算每個指令在惡意程序樣本中所出現的頻率TF與逆向樣本 頻率IDF,對惡意程序樣本集中出現的指令進行加權,從而構造指令 頻度向量來表征惡意程序樣本,并存儲于惡意程序特征庫中;
惡意程序特征庫,其用于存儲以指令頻度向量來表征的所有惡意 程序樣本;
樣本差異度度量模塊,其采用Cosine余弦度量方法,通過計算 兩個樣本指令頻度向量之間夾角來衡量樣本之間的差異度;
惡意程序樣本家族劃分模塊,其將惡意程序特征庫中所有N個 惡意程序樣本從分成N個家族開始,逐次分成N-1個家族、N-2個家 族,依次類推,直至最后將所有N個惡意程序樣本分成一個家族或 者直到分成預先設定好的家族數;
聚類質量評估模塊,其對惡意程序樣本家族劃分模塊每層分家族 的結果采用FS指標值進行有效性度量,并選擇最小的FS指標值, 將其對應的劃分結果作為最終結果。
為了實現上述第二目的,本發(fā)明采用如下技術方案:
使用上述基于文件指令頻度的計算機惡意程序分類系統(tǒng)進行分 類的方法,包括如下過程:
第一、惡意程序特征庫生成:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海金山軟件股份有限公司,未經珠海金山軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910040996.8/2.html,轉載請聲明來源鉆瓜專利網。





