[發明專利]基于文件指令頻度的計算機惡意程序分類系統及分類方法有效

申請號：	200910040996.8	申請日：	2009-07-10
公開（公告）號：	CN101604363A	公開（公告）日：	2009-12-16
發明（設計）人：	葉艷芳;萬里;韓智雪;陳勇	申請（專利權）人：	珠海金山軟件股份有限公司
主分類號：	G06F21/00	分類號：	G06F21/00;G06F17/30
代理公司：	廣州新諾專利商標事務所有限公司	代理人：	楊煥軍
地址：	519015廣東省珠海市***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于文件指令頻度計算機惡意程序分類系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于文件指令頻度的計算機惡意程序分類系統，

其特征在于，包括

指令頻度特征提取模塊，其首先解析惡意程序代碼的所有指令，并通過計算每個指令在惡意程序樣本中所出現的頻率TF與逆向樣本頻率 IDF，對惡意程序樣本集中出現的指令進行加權，從而構造指令頻度向量來表征惡意程序樣本，并存儲于惡意程序特征庫中；其中，

指令頻率TF是某一個給定的指令在該樣本中出現的頻率，對于第j個樣本中的指令t_i，其指令頻率值為TF_i，j，其TF_i，j值定義如下：

TFi,j=ni,jΣknk,j]]>——公式(1)

其中，n_i，j是該指令t_i在樣本j中出現的次數，而分母則是在樣本j 中所有指令出現的次數之和；

逆向樣本頻率IDF是一個指令普遍重要性的度量，一個指令t_i的 IDF值定義如下：

IDFi=log|D||{d:ti∈d}|]]>——公式(2)

其中，|D|表示惡意程序樣本庫中的樣本總數，|{d：t_i∈d}|表示包含指令t_i的惡意程序樣本個數；

對惡意程序樣本集中出現的指令進行加權，采用公式(1)指令頻率TF_i，j與公式(2)逆向樣本頻率IDF_i的乘積來對樣本j中的第i個指令t_i進行加權得到TFIDF_i，j，即：

TFIDF_i，j＝TF_i，j*IDF_i——公式(3)

其中，IDF_i，代表第i個指令t_i的逆向樣本頻率；

惡意程序特征庫，其用于存儲以指令頻度向量來表征的所有惡意程序樣本；

樣本差異度度量模塊，其采用Cosine余弦度量方法，通過計算兩個樣本指令頻度向量之間夾角來衡量樣本之間的差異度；其中，

兩個樣本x_i和x_j的Cosine距離S_ij定義如下：

Sij=xiTxj|xi||xj|]]>——公式(4)

其中，分子表示兩個樣本特征向量的內積，分母表示兩個樣本特征向量長度的乘積；

惡意程序樣本家族劃分模塊，其將惡意程序特征庫中所有N個惡意程序樣本從分成N個家族開始，逐次分成N-1個家族、N-2個家族，依次類推，直至最后將所有N個惡意程序樣本分成一個家族或者直到分成預先設定好的家族數；具體做法如下：

設需要對第K-1層劃分家族，則以上一層產生的K個家族為基礎，根據公式(4)的距離度量方法選擇最相似的兩個家族合并成一個新家族，并重新計算合并后新家族的中心點，然后利用下述K-means的全局優化迭代算法進行迭代，直至所有家族的中心點不再變化，最終將所有惡意程序樣本劃分為合理的K-1個家族；K-means的全局優化迭代算法如下：

I)按照該K-1層初始的K-1個中心點，將非中心點的樣本點根據公式(4)的Cosine距離度量方法計算該樣本點與這K-1個中心點的距離，將每個非中心點的樣本點重新歸類到與其最近的家族；

II)根據I)劃分的結果更新所有家族的中心：家族i的中心點為c_i，其中i＝1…k-1，其中其中v_t代表家族i的第t個樣本，n_i表示該家族i的樣本個數，表示樣本v_t與同家族所有樣本的距離和；

III)檢查即求的值，若值為0，則本次迭代與上一次迭代所有家族的中心點未發生變化，迭代終止；否則，轉步驟I)～步驟II)，其中c_i，c′_i分別為家族i更新前后的中心點；聚類質量評估模塊，其對惡意程序樣本家族劃分模塊每層分家族的結果采用FS指標值進行有效性度量，并選擇最小的FS指標值，將其對應的劃分結果作為最終結果；其中，

FS=Σi=1cΣk=1nukim(||xk-vi||2-||vi-v‾||2)]]>——公式(5)

其中，n表示惡意程序樣本庫的樣本個數，c表示分成的類數，v_i表示第i家族的中心點，家族的中心點是指距離本家族中所有樣本的距離之和最小的樣本點，是惡意程序樣本庫中全體樣本的中心點，即距離全局所有樣本的距離之和最小的樣本點；||x_k-v_i||表示第i家族中的樣本點x_k與該家族中心點v_i的距離，表示第i家族的中心點到全局中心點的距離，是樣本隸屬度矩陣：若樣本x_k屬于第 i家族，則矩陣中該x_k值為1；否則，值為0。

2.一種使用權利要求1所述基于文件指令頻度的計算機惡意程序分類系統進行分類的方法，其特征在于，包括如下過程

第一、指令頻度特征提取步驟，指令頻度特征提取模塊首先解析惡意程序代碼的所有指令，并統計每個指令在惡意程序樣本中所出現的頻度，采用指令在惡意程序樣本中出現的頻率TF與逆向樣本頻率IDF 對惡意程序樣本集中出現的指令進行加權，從而構造指令頻度向量來表征惡意程序樣本；其中，

指令頻率TF是某一個給定的指令在該樣本中出現的頻率，對于第j個樣本中的指令t_i，其指令頻率值為TF_i，j，其TF_i，j值定義如下：

TFi,j=ni,jΣknk,j]]>——公式(1)

其中，n_i，j是該指令t_i在樣本j中出現的次數，而分母則是在樣本j 中所有指令出現的次數之和；

逆向樣本頻率IDF是一個指令普遍重要性的度量，一個指令t_i的 IDF值定義如下：

IDFi=log|D||{d:ti∈d}|]]>——公式(2)

其中，|D|表示惡意程序樣本庫中的樣本總數，|{d：t_i∈d}|表示包含指令t_i的惡意程序樣本個數；

TFIDF_i，j＝TF_i，j*IDF_i——公式(3)

其中，IDF_i，代表i第個指令t_i的逆向樣本頻率；

第二，惡意程序特征庫生成步驟，將指令頻度特征提取步驟中得到以指令頻度向量來表征的所有惡意程序樣本存儲于惡意程序特征庫中；

第三、樣本差異度度量步驟，

樣本差異度度量模塊采用Cosine余弦度量方法，通過計算兩個樣本指令頻度向量之間夾角來衡量樣本之間的差異度；其中，

兩個樣本x_i和x_j的Cosine距離S_ij定義如下：

Sij=xiTxj|xi||xj|]]>——公式(4)

其中，分子表示兩個樣本特征向量的內積，分母表示兩個樣本特征向量長度的乘積；

第四、惡意程序樣本家族劃分步驟，惡意程序樣本家族劃分模塊將惡意程序特征庫中所有N個惡意程序樣本從分成N個家族開始，逐次分成N-1個家族、N-2個家族，依次類推，直至最后將所有N個惡意程序樣本分成一個家族或者直到分成預先設定好的家族數；具體做法如下：

II)根據I)劃分的結果更新所有家族的中心：家族i的中心點為c_i，其中i＝1…k-1，其中其中v_t代表家族 i的第t個樣本，n_i表示該家族i的樣本個數，表示樣本v_t與同家族所有樣本的距離和；

III)檢查即求的值，若值為0，則本次迭代與上一次迭代所有家族的中心點未發生變化，迭代終止；否則，轉步驟I)～步驟II)，其中c_i，c′_i分別為家族i更新前后的中心點；

第五，聚類質量評估步驟，聚類質量評估模塊對惡意程序樣本家族劃分步驟每層分家族的結果采用FS指標值進行有效性度量；選擇所有 FS指標值中最小值，該最小FS指標值所對應的分家族結果即為最后的分家族結果；其中，

FS=Σi=1cΣk=1nukim(||xk-vi||2-||vi-v‾||2)]]>——公式(5)

其中，n表示惡意程序樣本庫的樣本個數，c表示分成的類數，v_i表示第i家族的中心點，家族的中心點是指距離本家族中所有樣本的距離之和最小的樣本點，是惡意程序樣本庫中全體樣本的中心點，即距離全局所有樣本的距離之和最小的樣本點；||x_k-v_i||表示第i家族中的樣本點x_k與該家族中心點vX的距離，表示第i家族的中心點到全局中心點的距離，是樣本隸屬度矩陣：若樣本x_k屬于第i 家族，則矩陣中該x_k值為1；否則，值為0。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于珠海金山軟件股份有限公司，未經珠海金山軟件股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910040996.8/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：拉頭涂層附著力檢測方法及設備
下一篇：一種構建帳篷等戶外臨時居住設施的通用組件

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F21-00 防止未授權行為的保護計算機或計算機系統的安全裝置
G06F21-02 .通過保護計算機的特定內部部件
G06F21-04 .通過保護特定的外圍設備，如鍵盤或顯示器
G06F21-06 .通過感知越權操作或外圍侵擾
G06F21-20 .通過限制訪問計算機系統或計算機網絡中的節點
G06F21-22 .通過限制訪問或處理程序或過程

免登錄下載普通用戶下載升級VIP會員，免費下載

[發明專利]基于文件指令頻度的計算機惡意程序分類系統及分類方法有效

專利文獻下載