[發明專利]一種惡意代碼混淆特征清洗方法在審
| 申請號: | 201810013584.4 | 申請日: | 2018-01-08 |
| 公開(公告)號: | CN108287996A | 公開(公告)日: | 2018-07-17 |
| 發明(設計)人: | 王櫟漢;寧振虎;薛菲;蔡永泉;梁鵬 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 混淆 惡意代碼 惡意代碼特征 清洗 特征提取算法 模型識別 特征選擇 特征庫 信息安全領域 訓練數據集 機器學習 特征提取 提取算法 異常數據 有效時限 構建 算法 保證 | ||
1.一種惡意代碼混淆特征清洗方法,本方法包括特征選擇方法和混淆特征清洗方法,提高傳統惡意代碼特征提取方法的有效性;
首先通過n-gram特征提取方法構建特征庫;由于該特征提取算法無法解決惡意代碼的混淆操作,造成特征庫中含有大量惡意代碼的混淆特征值;通過混淆特征清洗算法,消除異常數據對模型識別規則的干擾;在此基礎上從訓練數據集規模的角度上,提出一種特征選擇方法;該方法在保證模型識別精度不下降的基礎上,有效降低模型最終使用的特征數目;
其特征在于:本方法的實施流程如下,
1)基于多樣本分析,構建混淆特征清洗方法;該方法通過對少量樣本數據的詳細分析,發現樣本中混淆特征的特點并構建線性回歸算法模型;
2)基于該混淆特征清洗方法動態計算其余各樣本中混淆特征值的閾值,并基于該值對樣本庫中其余樣本的特征向量進行混淆清除;
3)根據樣本輸入訓練集構建特征選擇方法;該方法首先對得到的特征向量進行歸一化處理,并依據輸入訓練樣本數目,動態清除在數據集中貢獻較小的特征值;
具體實現步驟如下:
1)考慮到惡意代碼樣本情況復雜,各個惡意代碼樣本所采用的混淆方法是動態變化的,并且不同樣本所提取的特征值分布也是不同的;因此對于每個樣本而言,需要動態求解樣本混淆值的大小;各惡意代碼樣本中混淆特征值的閾值ξ,簡稱混淆閾值,ξ是樣本中混淆特征值中最小值,該最小值在不同樣本中是動態變化的;為了更好的衡量和表征該值的大小;定義了如下兩個指標,分別為特征預期值Featureaverages和特征標準值Featuremedian;這兩個指標是通過對單個樣本的動態求解而得到的,用于描述該樣本中的特征分布情況;該函數反應了閾值與預期值和標準值之間的關系:ξ=α*Featureaverages+β*Featuremedian,α和β分別為特征預期值和特征標準值的權重;
2)特征預期值Featureaverages代表了樣本最原始情況下特征值理想的取值情況;通過計算該樣本中各特征值的總和并求平均,得到一個在當前樣本分布情況下的特征值的理想取值;考慮到n-gram算法在對大部分惡意代碼樣本進行特征提取時,會造成樣本中含有大量只出現過單次的無效特征;因此在計算特征預期值Featuremedian時通過對樣本中各特征值進行去重后,再進行求平均操作;這樣的處理會消除大量噪音數據對均值的影響;m是去重后所剩特征個數,featurei代表第i個特征的特征值大小;
特征預期值的計算:
3)特征標準值Featuremedian用于降低較大的混淆特征值對最終結果的干擾,特征標準值是通過計算樣本中所有特征值的中位數而得到,較好的反應樣本在未受干擾時,特征值的理想取值;由于在一份惡意代碼樣本中,整體的特征值分布情況趨于高斯分布,其中的混淆特征在其特征分布中只占非常少的比例;雖然混淆特征值對特征標準值也會造成影響;但是由于混淆特征值在特征分布中所占比例較低,因此通過求解分布中的中位數取值,得到一個非常接近去除混淆后理想特征值取值的范圍;m是去重后所剩特征個數,featurei代表第i個特征的特征值大小;mid函數是求解序列的中位數;特征標準值計算函數:
Featuremedian=mid(feature1,feature2,...,featurem)。
2.根據權利要求1所述的一種惡意代碼混淆特征清洗方法,其特征在于:在對惡意代碼樣本集進行特征提取時,利用混淆特征值清洗方法得到經過初步處理的除混淆特征庫;該特征庫中對訓練模型產生較大干擾的混淆特征值已經被清除,但是如果直接基于該特征庫進行模型訓練,很難取得好的效果;由于惡意代碼樣本集中存在多種家族的變種惡意代碼,會造成特征庫中特征數目過于龐大;考慮到在這些特征值較小的特征中,除大多數的噪音數據,還有部分屬于惡意代碼中重要的家族特征;這些家族特征只出現過較少的次數,因此如果將特征值較小的特征全部清除,不可避免的會清除部分好特征對模型的精度產生干擾;為能夠進一步的對除混淆特征庫進行清洗,在消除大部分的噪音數據的同時保留重要的惡意代碼家族特征;
采用一種基于輸入訓練數據集規模的特征選擇方法實現,具體技術方案如下:
1)由于惡意代碼樣本的多樣性,各個樣本中特征向量的取值范圍也是不同的;對于同一數值的特征值,在不同樣本中的重要程度是不同的;為了能夠消除因取值范圍不同,對最終衡量特征時造成的影響;本方法提出了一種基于占比的標準化操作;對于單個樣本,通過計算單個樣本中各特征值與特征值總合的比例,衡量各特征值在樣本中的重要程度;featurei'代表了標準化后featurei新的取值;特征標準算法:
2)對于標準化后的訓練特征庫,單個樣本所有特征值之和為1;因此對于輸入總樣本數S,所有的特征值之和為S;為了能夠消除單個樣本中噪音數據的同時,并不破壞其中某些重要的家族特征;本方法提出了一種基于輸入樣本數S,訓練集中惡意代碼家族類別數n的特征選擇方法;對于混淆特征庫中各樣本特征向量進行標準化處理后,再對所有出現的特征進行累加,得到基于樣本集的各特征總和特征值;由于惡意代碼家族特征會在相同家族樣本中會重復出現,因此該特征值經過累加后會提高最終特征值的大小;而對于其余的噪音數據,由于其特征僅僅只在個別樣本中出現,因此在其余樣本中該特征值為0;最終累加值在整體樣本特征中,所占的比例也會相應的降低;對于某個特征Featurei的值是由所有樣本文件中該特征的取值之和;其中Featurei是最終第i個特征的取值,S為訓練集樣本個數,featurei代表各個樣本中當前特征的取值;
特征選取公式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810013584.4/1.html,轉載請聲明來源鉆瓜專利網。





