[發(fā)明專利]一種可移植可執(zhí)行文件的聚類方法和裝置無效
| 申請?zhí)枺?/td> | 201210321468.1 | 申請日: | 2012-09-03 |
| 公開(公告)號: | CN103679012A | 公開(公告)日: | 2014-03-26 |
| 發(fā)明(設(shè)計(jì))人: | 楊宜;于濤;白子潘;崔精兵;吳家旭 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 江崇玉 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 移植 可執(zhí)行文件 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)通信領(lǐng)域,特別涉及一種可移植可執(zhí)行文件的聚類方法和裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,信息成爆炸式增長,計(jì)算機(jī)病毒、蠕蟲、木馬程序等計(jì)算機(jī)惡意程序流行的周期也越來越短,每日都會有大量的病毒危害用戶的安全。由于大部分的病毒文件都是PE(Portable?Executable,可移植可執(zhí)行)文件格式,這些病毒PE文件雖然數(shù)量大,但是很多都具有相似特性,可以通過聚類對PE文件事先進(jìn)行歸類,這樣有利于病毒的分析和查殺。
目前,對PE文件聚類方法主要分為兩種:一種是傳統(tǒng)的PE文件聚類方法,如k均值聚類、層次聚類等,首先提取PE文件的某些特征,然后根據(jù)提取的特征對兩個(gè)PE文件進(jìn)行相似性比對,再對相似的PE文件進(jìn)行聚類;另一種是基于模糊哈希的PE文件聚類方法,又叫CTPH(Context?Triggered?Piecewise?Hashing,基于內(nèi)容分割的分片哈希算法),首先將PE文件分割成多個(gè)分片,然后對兩個(gè)PE文件的分片進(jìn)行比對,確定PE文件的相似性從而進(jìn)行聚類。
在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
第一種傳統(tǒng)的PE文件聚類方法,對兩個(gè)PE文件進(jìn)行比對時(shí),需要對所提取的特征進(jìn)行對齊,由于PE文件差異性大,在進(jìn)行對齊極為耗時(shí),還需要對多個(gè)特征進(jìn)行比對,計(jì)算復(fù)雜度很大,并且對新增數(shù)據(jù)進(jìn)行增量聚類時(shí),需要同時(shí)聚類原來數(shù)據(jù),數(shù)據(jù)存儲和處理的成本高;第二種基于模糊哈希的PE文件聚類方法,依賴于PE文件的分割,PE文件分割的起始位置以及分割的分片的大小,都會影響文件的哈希值,穩(wěn)定性差,可比性差;并且沒有觸及PE文件的內(nèi)在信息,使得很多病毒PE文件會通過修改自身結(jié)構(gòu)產(chǎn)生變種,如增刪比特等操作,結(jié)果將導(dǎo)致其模糊哈希值完全不同而無法聚類。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種可移植可執(zhí)行文件的聚類方法和裝置。所述技術(shù)方案如下:
一方面,提供了一種可移植可執(zhí)行文件的聚類方法,所述方法包括:
提取可移植可執(zhí)行PE文件的特征;
根據(jù)所述PE文件的特征,生成與所述PE文件對應(yīng)的PE文件標(biāo)識;
根據(jù)所述PE文件標(biāo)識,對所述PE文件進(jìn)行聚類。
具體地,所述提取可移植可執(zhí)行PE文件的特征之后,包括:
將提取的所述PE文件的特征組成PE文件特征集合;所述PE文件特征集合包括至少一個(gè)特征;
相應(yīng)地,所述根據(jù)所述PE文件的特征,生成與所述PE文件對應(yīng)的PE文件標(biāo)識,包括:
根據(jù)所述PE文件特征集合,生成與所述PE文件對應(yīng)的PE文件標(biāo)識。
具體地,所述根據(jù)所述PE文件的特征,生成與所述PE文件對應(yīng)的PE文件標(biāo)識,包括:
當(dāng)提取的所述PE文件的特征與其他PE文件的特征的相似度達(dá)到預(yù)設(shè)的閾值時(shí),生成的所述PE文件的PE文件標(biāo)識與其他所述PE文件的PE文件標(biāo)識相同;
當(dāng)提取的所述PE文件的特征與其他PE文件的特征的相似度未達(dá)到預(yù)設(shè)的閾值時(shí),生成的所述PE文件的PE文件標(biāo)識與其他所述PE文件的PE文件標(biāo)識不同。
進(jìn)一步地,當(dāng)所述PE文件標(biāo)識具體為數(shù)值標(biāo)識時(shí),所述方法包括:
當(dāng)提取的所述PE文件的特征與其他所述PE文件的特征中有部分相同時(shí),根據(jù)所述相同的特征的個(gè)數(shù),確定所述PE文件生成的PE數(shù)值標(biāo)識與其他所述PE文件生成的PE數(shù)值標(biāo)識的差距。
具體地,所述根據(jù)所述PE文件標(biāo)識,對所述PE文件進(jìn)行聚類,包括:
將所述PE文件標(biāo)識相同的所有的所述PE文件,劃分為同一個(gè)類別;
對所述同一類別的所有的所述PE文件進(jìn)行聚類,并用所述PE文件標(biāo)識對所述同一類別的所有的所述PE文件進(jìn)行標(biāo)識。
另一方面,提供了一種可移植可執(zhí)行文件的聚類裝置,所述裝置包括:
提取模塊,用于提取可移植可執(zhí)行PE文件的特征;
生成模塊,用于根據(jù)所述PE文件的特征,生成與所述PE文件對應(yīng)的PE文件標(biāo)識;
聚類模塊,用于根據(jù)所述PE文件標(biāo)識,對所述PE文件進(jìn)行聚類。
具體地,所述提取模塊,用于提取可移植可執(zhí)行PE文件的特征之后,將提取的所述PE文件的特征組成PE文件特征集合;所述PE文件特征集合包括至少一個(gè)特征;
相應(yīng)地,所述生成模塊,用于根據(jù)所述PE文件特征集合,生成與所述PE文件對應(yīng)的PE文件標(biāo)識。
具體地,所述生成模塊,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210321468.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 可執(zhí)行文件版本更新系統(tǒng)及方法
- 一種棧安全檢測方法與系統(tǒng)
- 一種可執(zhí)行文件的保護(hù)方法及裝置
- 一種可執(zhí)行文件的控制方法和裝置
- 一種可執(zhí)行文件數(shù)據(jù)防泄漏掃描方法、系統(tǒng)及網(wǎng)關(guān)
- 可執(zhí)行文件匹配方法、裝置及計(jì)算機(jī)設(shè)備
- 可執(zhí)行文件的分析方法、裝置、存儲介質(zhì)和處理器
- 一種安全運(yùn)行可執(zhí)行文件的方法及系統(tǒng)
- 可執(zhí)行文件遠(yuǎn)程安全加載的方法
- 一種可執(zhí)行文件安全調(diào)用的方法及裝置





