[發(fā)明專利]基于多維度特征融合和模型集成的惡意軟件家族分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 202210035910.8 | 申請(qǐng)日: | 2022-01-11 |
| 公開(kāi)(公告)號(hào): | CN114386511B | 公開(kāi)(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 李樹(shù)棟;厲源;吳曉波;李正陽(yáng);韓偉紅;張海鵬;肖林鶴;許娜;趙傳彧;方濱興;田志宏;顧釗銓;殷麗華 | 申請(qǐng)(專利權(quán))人: | 廣州大學(xué) |
| 主分類號(hào): | G06F18/241 | 分類號(hào): | G06F18/241;G06F18/214;G06N3/0464;G06N3/08 |
| 代理公司: | 北京高航知識(shí)產(chǎn)權(quán)代理有限公司 11530 | 代理人: | 劉艷玲 |
| 地址: | 510006 廣東省*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多維 特征 融合 模型 集成 惡意 軟件 家族 分類 方法 | ||
1.基于多維度特征融合和模型集成的惡意軟件家族分類方法,其特征在于,包括:
S1獲取惡意軟件PE文件,根據(jù)獲取的PE文件提取多個(gè)維度的惡意軟件特征;其中惡意軟件特征包括:Ember特征、TF-IDF特征和Asm2Vec;
S2根據(jù)提取的惡意軟件特征進(jìn)行特征融合和特征選擇處理,得到惡意軟件家族分類特征集;其中,根據(jù)提取的惡意軟件特征進(jìn)行特征融合,包括:
融合構(gòu)建惡意軟件家族分類特征集,其中惡意軟件家族分類特征集包括Ember特征中的節(jié)區(qū)、導(dǎo)入表、導(dǎo)出表以及融合得到的Ember基礎(chǔ)特征,TF-IDF特征中的可讀性字符串和操作碼序列特征,Asm2Vec特征以及兩個(gè)多維度融合特征;
S3以XGBoost作為基礎(chǔ)模型,根據(jù)得到的惡意軟件家族分類特征集中的特征分別單獨(dú)訓(xùn)練基礎(chǔ)模型,并根據(jù)訓(xùn)練好的基礎(chǔ)模型對(duì)訓(xùn)練集樣本進(jìn)行預(yù)測(cè),根據(jù)得到預(yù)測(cè)結(jié)果計(jì)算各特征在對(duì)應(yīng)各家族上的權(quán)重值;并采用加權(quán)軟投票的方式來(lái)計(jì)算惡意軟件家族分類預(yù)測(cè)結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于多維度特征融合和模型集成的惡意軟件家族分類方法,其特征在于,步驟S1包括:
根據(jù)獲取的PE文件提取Ember特征,具體包括:
使用Ember提供的特征提取方法提取出PE文件的字節(jié)直方圖、字節(jié)熵直方圖和字符串信息特征作為Ember基礎(chǔ)特征;
根據(jù)獲取的PE文件進(jìn)行反匯編處理得到匯編文件,從匯編文件中提取節(jié)區(qū)、導(dǎo)入表信息和導(dǎo)出表信息;
其中Ember特征包含Ember基礎(chǔ)特征和所述節(jié)區(qū)、導(dǎo)入表信息和導(dǎo)出表信息。
3.根據(jù)權(quán)利要求2所述的基于多維度特征融合和模型集成的惡意軟件家族分類方法,其特征在于,步驟S1包括:
根據(jù)獲取的PE文件和/或匯編文件提取TF-IDF特征,具體包括:
針對(duì)PE文件中的可讀性字符串和/或匯編文件中的操作碼序列進(jìn)行詞頻-逆文件頻率處理,得到TF-IDF特征,其中TF-IDF特征包括可讀性字符串序列特征和操作碼序列特征。
4.根據(jù)權(quán)利要求3所述的基于多維度特征融合和模型集成的惡意軟件家族分類方法,其特征在于,步驟S1包括:
根據(jù)獲取匯編文件提取Asm2Vec特征,具體包括:
根據(jù)匯編文件中的代碼執(zhí)行邏輯有關(guān)的語(yǔ)義信息提取Asm2Vec特征。
5.根據(jù)權(quán)利要求4所述的基于多維度特征融合和模型集成的惡意軟件家族分類方法,其特征在于,步驟S2中,根據(jù)提取的惡意軟件特征進(jìn)行特征選擇,包括:
對(duì)經(jīng)過(guò)TF-IDF處理后生成的特征進(jìn)行特征選擇,使用基于樹(shù)的評(píng)估器ExtraTreesClassifier計(jì)算特征的重要性,并根據(jù)特征重要性剔除無(wú)關(guān)特征或冗余特征。
6.根據(jù)權(quán)利要求5所述的基于多維度特征融合和模型集成的惡意軟件家族分類方法,其特征在于,步驟S3包括:
以XGBoost作為基礎(chǔ)模型,根據(jù)得到的惡意軟件家族分類特征集中的特征分別單獨(dú)訓(xùn)練基礎(chǔ)模型,并根據(jù)訓(xùn)練好的基礎(chǔ)模型對(duì)訓(xùn)練集樣本進(jìn)行預(yù)測(cè),得到每個(gè)特征對(duì)應(yīng)的原始預(yù)測(cè)概率;將訓(xùn)練集樣本按其所屬家族進(jìn)行分組,根據(jù)每個(gè)特征在每組樣本的預(yù)測(cè)結(jié)果和真實(shí)家族計(jì)算logloss,并將logloss的負(fù)對(duì)數(shù)值作為當(dāng)前特征在當(dāng)前家族上的權(quán)重值;
根據(jù)得到的權(quán)重值,將每個(gè)基礎(chǔ)模型的預(yù)測(cè)概率乘上對(duì)應(yīng)權(quán)重然后相加,得到新的預(yù)測(cè)概率;對(duì)于每一個(gè)樣本,將相加后概率值最大的類確定為投票結(jié)果,從參與的所有基礎(chǔ)模型中選取預(yù)測(cè)結(jié)果與投票結(jié)果一致且預(yù)測(cè)概率值最大的結(jié)果作為惡意軟件家族分類預(yù)測(cè)結(jié)果。
7.根據(jù)權(quán)利要求6所述的基于多維度特征融合和模型集成的惡意軟件家族分類方法,其特征在于,還包括步驟S4對(duì)于惡意軟件家族分類特征集中的各個(gè)特征,在計(jì)算得到對(duì)應(yīng)的原始預(yù)測(cè)概率和該特征在各個(gè)家族上的權(quán)重值后,選取不同的特征集合進(jìn)行加權(quán)軟投票處理并得到對(duì)應(yīng)的預(yù)測(cè)概率,并根據(jù)多組預(yù)測(cè)概率值計(jì)算惡意軟件家族分類預(yù)測(cè)結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州大學(xué),未經(jīng)廣州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210035910.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 多維、多元生命水及其用途
- 一種多維地址域名解析的方法和裝置以及系統(tǒng)
- 創(chuàng)建多維操作系統(tǒng)的方法和裝置
- 一種對(duì)多維地址數(shù)據(jù)進(jìn)行解析的方法和裝置以及系統(tǒng)
- 一種分組的交付和路由選擇的方法和裝置以及系統(tǒng)
- 多維碼處理方法、發(fā)送端、接收端和系統(tǒng)
- 多維度信息展示方法及裝置
- 一種屏幕可視化方法、裝置、電子設(shè)備及介質(zhì)
- 多維數(shù)據(jù)集的生成方法及裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





