[發明專利]一種基于TLSH特征表示的惡意軟件聚類方法有效
| 申請號: | 201610890389.0 | 申請日: | 2016-10-12 |
| 公開(公告)號: | CN106599686B | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 王俊峰;肖錦琦;徐寶新 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 成都信博專利代理有限責任公司 51200 | 代理人: | 劉凱;崔建中 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 tlsh 特征 表示 惡意 軟件 方法 | ||
1.一種基于TLSH特征表示的惡意軟件聚類方法,其特征在于,包括以下步驟:
步驟1:利用Cuckoo Sandbox對樣本進行分析,獲取行為分析報告;
步驟2:從行為分析報告中獲取樣本靜態特征,樣本靜態特征包括DLL信息、DLL信息的導入及導出函數信息,以及在分析過程中捕獲到的字符串信息,并按照字典對上述信息進行排序,得到一個字符串;
步驟3:從行為分析報告中獲取樣本的資源訪問記錄,樣本的資源訪問記錄包括以下信息:文件/目錄、注冊表、服務、DLL、使用過的互斥量,將每個類別的信息按字典進行排序后合并為一個字符串;所述文件/目錄和注冊表信息先通過分隔符“\\”拆分成子項后再排序;
步驟4:從行為分析報告中獲取樣本動態API以及加載的DLL所調用的API,并按照字典對上述信息進行排序,得到一個字符串;
步驟5:分別計算步驟2、步驟3、步驟4中得到的字符串的TLSH值;
步驟6:采用TLSH距離計算公式求得兩個樣本中各個TLSH值的TLSH距離,取最小的兩個值的平均值作為兩個樣本的最終距離,采用OPTICS算法對樣本進行聚類。
2.根據權利要求1所述的基于TLSH特征表示的惡意軟件聚類方法,其特征在于,所述步驟2中得到的字符串存在干擾項,對其進一步過濾處理,方法如下:
分別統計該字符串中代表各個信息的子字符串中字母出現的個數,由下式計算子字符串的信息熵:
其中,代表字母a-z,代表字母在子字符串中出現的概率,計算方法為的出現的個數除以子字符串長度;
保留信息熵在閉區間[2.188,3.91]內的子字符串。
3.根據權利要求1所述的基于TLSH特征表示的惡意軟件聚類方法,其特征在于,所述TLSH值的算法如下:
1)用大小為5個字節的滑動窗口處理目標字符串S,一次向前滑動一個字節,設一個滑動窗口的內容為:ABCDE;則分別采用Pearson Hash映射并統計ABC、ABD、ABE、ACD、ACE、ADE這6個bucket的個數;
2)在統計完字符串S所有bucket的個數后,定義q1、q2、q3為:75%的bucket的個數>=q1,50%的bucket的個數>=q2,25%的bucket的個數>=q3;
3)構造TLSH哈希的頭部,共三個字節:第一個字節是字符串的校驗和;第二個字節是由公式(2)所描述的字符串S的長度的對數L表示,len為字符串S的長度;第三個字節由兩個16位的數q1_ratio、q2_ratio組合而成,計算方法如公式(3)所示:
4)構造TLSH哈希的主體部分:Pearson Hash生成的128個映射中每個映射為一個鍵,其對應的值為該鍵出現的個數;遍歷每個鍵,并按公式(4)生成相應的二進制位,最終得到大小為32字節的主體部分哈希值:
5)將步驟3)所求的數值和步驟4)所得的二進制串轉換為70個十六進制數,得到最終的TLSH值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610890389.0/1.html,轉載請聲明來源鉆瓜專利網。





