[發(fā)明專利]基于半監(jiān)督密度聚類的惡意代碼家族同源性分析方法有效
| 申請?zhí)枺?/td> | 201810744345.6 | 申請日: | 2018-07-09 |
| 公開(公告)號: | CN109190653B | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設計)人: | 方勇;劉亮;黃誠;榮俸萍;張與弛 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F21/56 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監(jiān)督 密度 惡意代碼 家族 同源性 分析 方法 | ||
本發(fā)明依據(jù)絕大多數(shù)新增惡意代碼屬于已知的惡意代碼家族這一特性,利用病毒庫中已有樣本的信息輔助惡意代碼進行家族同源性分析以實現(xiàn)更準確的家族聚類,并在準確的家族聚類的基礎上對同家族的惡意代碼構建家族圖以可視化的方式了解同一家族內(nèi)惡意代碼的變種之間的演化關系并預測變種的發(fā)展方向,為惡意代碼的深度分析提供技術支撐。結合惡意代碼本身的演化特點,提出了一種支持家族圖構建的惡意代碼同源性分析模型,通過實驗證明該模型的有效性。提出了一種半監(jiān)督密度聚類算法,通過實驗證明該算法可以實現(xiàn)準確的家族聚類,并為未知家族的發(fā)現(xiàn)提供線索,提出了一種基于不對稱相似度度量的家族演化圖構建算法,對每個惡意家族構建演化圖,可視化呈現(xiàn)同一家族內(nèi)惡意樣本間的演化關系。
技術領域
本發(fā)明運用半監(jiān)督聚類技術來對惡意代碼進行家族聚類,并使用不對稱相似度計算方法構建家族演化圖來可視化同一家族內(nèi)變種間演化關系。通過研究當前聚類算法及遇到的問題,結合病毒庫中的已知樣本的信息,提出一種半監(jiān)督密度聚類算法S-DBSCAN,屬于數(shù)據(jù)挖掘技術。
背景技術
靜態(tài)自動化分析技術難于對抗、混淆、加密和加殼等靜態(tài)自動化分析技術,而動態(tài)自動化分析技術效率較低,現(xiàn)有框架多使用虛擬機作為分析環(huán)境,難以對抗動態(tài)分析環(huán)境檢測及技術,無法得到樣本可靠、準確的動態(tài)行為信息。
傳統(tǒng)的序列挖掘算法GSP只能挖掘出頻繁序列模式而不能達到挖掘某一類型樣本的典型序列模式和進行惡意代碼家族同源性分析的目的,不能直接應用于惡意代碼家族同源性分析問題中。
傳統(tǒng)的用于惡意代碼家族聚類的聚類算法有密度聚類算法和層次聚類算法,該算法的缺點是在惡意家族較為相似的情況下,不能實現(xiàn)準確的家族劃分,家族聚類的誤差就很大,不適用于惡意家族總數(shù)巨大、分類細化的真實場景。
現(xiàn)有的家族演化樹構建方法大多來自生物信息學上的系統(tǒng)發(fā)生樹構建算法,對于基于代碼復用的惡意代碼同源性分析問題,系統(tǒng)發(fā)生樹只能發(fā)現(xiàn)相似的惡意代碼,并不能準確的揭示惡意代碼之間的進化方向和演化關系。
發(fā)明內(nèi)容
本發(fā)明為了解決現(xiàn)有同源性分析方法不能準確實現(xiàn)惡意代碼的家族劃分和可視化同家族惡意代碼變種間的演化關系等弱點,通過改進DBSCAN算法,結合半監(jiān)督聚類技術利用病毒庫中已知樣本家族信息來實現(xiàn)對惡意代碼的準確家族聚類,并在此基礎上提出一種不對稱相似度計算方法以構建家族演化圖,進而提供一種可視化家族內(nèi)惡意代碼變種間演化關系的方法。
按照本發(fā)明提供的方法,所述惡意代碼家族同源性分析方法包括:典型API調用序列模式的提取,惡意代碼家族聚類,家族演化樹構建。具體的包括以下幾個步驟。
a)數(shù)據(jù)提取,動態(tài)API調用序列提取模塊負責樣本動態(tài)API調用序列數(shù)據(jù)的采集、編號和存儲。
b)序列模式挖掘,典型API序列模式挖掘模塊負責從已知樣本的API調用序列數(shù)據(jù)和其家族標簽信息中挖掘出能代表某一惡意家族關鍵惡意行為的典型API調用序列模式,并保存。
c)文件表征,文件表征模塊使用挖掘出的典型序列模式作為特征表征樣本,得到布爾向量形式的樣本數(shù)據(jù)集。
d)家族聚類,半監(jiān)督聚類模塊社區(qū)演變利用已知惡意樣本的家族類別信息輔助樣本集進行半監(jiān)督聚類。
f)家族演化圖構建,家族演化圖構建模塊對同家族內(nèi)不同變種間的演化關系進行判定,構建家族演化圖。
所屬基于半監(jiān)督密度聚類的惡意代碼家族同源性分析技術研究中,表示惡意代碼的常用特征主要包括。
a)代碼特征:主要包括節(jié)的個數(shù)、節(jié)名、節(jié)屬性、導入庫個數(shù)和名稱、導入函數(shù)個數(shù)和名稱等PE頭部信息和是否加殼、加殼算法及其版本信息等殼相關信息以及數(shù)據(jù)流圖、控制流圖、函數(shù)調用圖等結構特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經(jīng)四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810744345.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





