[發(fā)明專利]基于多維度特征融合和模型集成的惡意軟件家族分類方法有效
| 申請?zhí)枺?/td> | 202210035910.8 | 申請日: | 2022-01-11 |
| 公開(公告)號: | CN114386511B | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設計)人: | 李樹棟;厲源;吳曉波;李正陽;韓偉紅;張海鵬;肖林鶴;許娜;趙傳彧;方濱興;田志宏;顧釗銓;殷麗華 | 申請(專利權)人: | 廣州大學 |
| 主分類號: | G06F18/241 | 分類號: | G06F18/241;G06F18/214;G06N3/0464;G06N3/08 |
| 代理公司: | 北京高航知識產(chǎn)權代理有限公司 11530 | 代理人: | 劉艷玲 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多維 特征 融合 模型 集成 惡意 軟件 家族 分類 方法 | ||
本發(fā)明提供基于多維度特征融合和模型集成的惡意軟件家族分類方法,包括S1獲取惡意軟件PE文件,根據(jù)獲取的PE文件提取多個維度的惡意軟件特征;其中惡意軟件特征包括:Ember特征、TF?IDF特征和Asm2Vec;S2根據(jù)提取的惡意軟件特征進行特征融合和特征選擇處理,得到惡意軟件家族分類特征集;S3以XGBoost作為基礎模型,根據(jù)得到的惡意軟件家族分類特征集中的特征分別單獨訓練基礎模型,并根據(jù)訓練好的基礎模型對訓練集樣本進行預測,根據(jù)得到預測結果計算各特征在對應各家族上的權重值;并采用加權軟投票的方式來計算惡意軟件家族分類預測結果。本發(fā)明有助于提高惡意軟件家族分類的性能和泛化能力。
技術領域
本發(fā)明涉及惡意軟件家族分類技術領域,特別是基于多維度特征融合和模型集成的惡意軟件家族分類方法。
背景技術
近年來,惡意軟件的數(shù)量大幅增加,勒索軟件、木馬、病毒、惡意挖礦程序等多種形式的惡意軟件不斷涌現(xiàn),攻擊者利用這些惡意軟件持續(xù)發(fā)動大規(guī)模的網(wǎng)絡攻擊,對相關企業(yè)、政府機構和個人都構成了嚴重的安全威脅。為了更好地揭示惡意軟件的屬性信息和行為特征,針對惡意軟件的檢測識別和家族分類任務成為了網(wǎng)絡安全領域的研究熱點。然而,一方面,傳統(tǒng)的惡意軟件分類方法仍然采用啟發(fā)式和基于特征碼的技術手段,這些方法已經(jīng)難以應對惡意軟件的快速發(fā)展和擴散。另一方面,惡意軟件編寫者為了逃避傳統(tǒng)安全策略的檢測,在惡意軟件組件中引入了多態(tài)性。雖然屬于同一惡意軟件家族的惡意文件具有相同形式的惡意行為,但由于編寫者使用了各種策略不斷修改和/或混淆,原本隸屬同一家族的文件看起來像許多不同的文件,給檢測識別的準確性帶來了高度挑戰(zhàn)。與此同時,人工智能技術逐漸興起并得到廣泛應用,因其本身適用于自動化處理和海量數(shù)據(jù)分析等任務,故可以為惡意軟件自動化識別和分類提供幫助。
縱觀惡意軟件家族分類領域的發(fā)展動態(tài),針對相關技術的研究可以分為兩個階段。早期,傳統(tǒng)的惡意軟件分類方法采用啟發(fā)式和基于特征碼的技術手段,這一方法最初能夠具備較高的識別準確率,但后來一方面難以應對惡意軟件的快速發(fā)展和擴散趨勢,另一方面也無法對抗惡意軟件編寫者采用的檢測逃避技術。近年來,國內外逐漸開始關注機器學習、深度學習、神經(jīng)網(wǎng)絡等人工智能技術在這一工作中的應用,旨在提升海量惡意軟件分析的高效性。然而,現(xiàn)有技術往往只關注惡意軟件的某一種特征,或者傾向于構建單一的分類模型,僅僅依靠這樣的自動化策略雖能在理想情況下取得較好的分類效果,但始終無法解決真實環(huán)境中惡意軟件家族訓練樣本分布不均勻帶來的負面影響,使得模型退化嚴重。
發(fā)明內容
針對上述問題,本發(fā)明旨在提供基于多維度特征融合和模型集成的惡意軟件家族分類方法。
本發(fā)明的目的采用以下技術方案來實現(xiàn):
本發(fā)明提出基于多維度特征融合和模型集成的惡意軟件家族分類方法,包括:
S1獲取惡意軟件PE文件,根據(jù)獲取的PE文件提取多個維度的惡意軟件特征;其中惡意軟件特征包括:Ember特征、TF-IDF特征和Asm2Vec;
S2根據(jù)提取的惡意軟件特征進行特征融合和特征選擇處理,得到惡意軟件家族分類特征集;
S3以XGBoost作為基礎模型,根據(jù)得到的惡意軟件家族分類特征集中的特征分別單獨訓練基礎模型,并根據(jù)訓練好的基礎模型對訓練集樣本進行預測,根據(jù)得到預測結果計算各特征在對應各家族上的權重值;并采用加權軟投票的方式來計算惡意軟件家族分類預測結果。
一種實施方式中,步驟S1包括:
根據(jù)獲取的PE文件提取Ember特征,具體包括:
使用Ember提供的特征提取方法提取出PE文件的字節(jié)直方圖、字節(jié)熵直方圖和字符串信息特征作為Ember基礎特征;
根據(jù)獲取的PE文件進行反匯編處理得到匯編文件,從匯編文件中提取節(jié)區(qū)、導入表信息和導出表信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州大學,未經(jīng)廣州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210035910.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





