[發(fā)明專利]一種基于分組集成的不平衡惡意軟件檢測方法在審
| 申請?zhí)枺?/td> | 202010571828.8 | 申請日: | 2020-06-22 |
| 公開(公告)號(hào): | CN111753299A | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 嚴(yán)海升;李強(qiáng) | 申請(專利權(quán))人: | 重慶文理學(xué)院 |
| 主分類號(hào): | G06F21/56 | 分類號(hào): | G06F21/56;G06K9/62 |
| 代理公司: | 杭州泓呈祥專利代理事務(wù)所(普通合伙) 33350 | 代理人: | 張嬋嬋 |
| 地址: | 402160 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分組 集成 不平衡 惡意 軟件 檢測 方法 | ||
1.一種基于分組集成的不平衡惡意軟件檢測方法,其特征在于,包括以下步驟:
S1、特征提取:對實(shí)驗(yàn)樣本中提取權(quán)限信息及API調(diào)用信息,構(gòu)成特征向量集合;其中,實(shí)驗(yàn)樣本包括正常樣本和惡意樣本,正常樣本的數(shù)量大于惡意樣本的數(shù)量;
S2、特征優(yōu)化:采用信息增益算法對特征向量集合進(jìn)行篩選,以去除冗余特征,獲得不平衡數(shù)據(jù)集;
S3、利用分組集成檢測算法對不平衡數(shù)據(jù)集進(jìn)行檢測,以對正常樣本和惡意樣本進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的一種基于分組集成的不平衡惡意軟件檢測方法,其特征在于,所述步驟S3具體包括以下步驟:
S31、從不平衡數(shù)據(jù)集中隨機(jī)抽取三份數(shù)據(jù)集,分別作為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集;其中,訓(xùn)練數(shù)據(jù)集中的正常樣本與惡意樣本的數(shù)量分別記為b與m;
S32、隨機(jī)不放回地從訓(xùn)練數(shù)據(jù)集的正常樣本中抽取m個(gè)樣本與m個(gè)惡意樣本合成新的數(shù)據(jù)集Di;抽取k次,形成k個(gè)平衡數(shù)據(jù)集;其中,k=b/m;
S33、對每個(gè)數(shù)據(jù)集Di,采用決策樹進(jìn)行訓(xùn)練,訓(xùn)練k個(gè)決策樹分類器,在驗(yàn)證數(shù)據(jù)集上依次測試各決策樹分類器t的分類性能,并計(jì)算其召回率記為rt;對于決策樹分類器t,若惡意樣本被錯(cuò)分,則將錯(cuò)分的樣本加入到下一決策樹分類器中進(jìn)行訓(xùn)練,共構(gòu)成k個(gè)基分類器;
S34、對k個(gè)基分類器以權(quán)值投票方式組合成集成決策樹分類器C*;
S35、針對測試數(shù)據(jù)集中每個(gè)測試樣本x,將x輸入到?jīng)Q策樹集成分類器C*中的k個(gè)基分類器中,計(jì)算k個(gè)基分類器的權(quán)值投票結(jié)果,其計(jì)算公式如下:
其中,rt為決策樹分類器t的召回率;
Tc,x(x)的定義如下:
當(dāng)統(tǒng)計(jì)惡意樣本的票數(shù)時(shí),c類為惡意樣本,非c類為正常樣本;
當(dāng)統(tǒng)計(jì)正常樣本的票數(shù)時(shí),c類為正常樣本,非c類為惡意樣本;
計(jì)算樣本被判別為惡意樣本與正常樣本的總票數(shù),選擇得票最多的類別作為樣本x的最終類別。
3.根據(jù)權(quán)利要求2所述的一種基于分組集成的不平衡惡意軟件檢測方法,其特征在于,所述步驟S1具體包括以下步驟:
S11、編寫Python程序讀取實(shí)驗(yàn)樣本中的權(quán)限和API調(diào)用信息,構(gòu)成特征集合;
S12、對特征集合做去重處理,形成新特征集合FS;
S13、針對所有樣本判別其是否包含新特征集合FS中對應(yīng)的元素;若樣本中包含F(xiàn)S集合中對應(yīng)的特征,則特征向量對應(yīng)元素用1表示;否則,對應(yīng)元素用0表示;遍歷所有樣本組成特征向量集合FVS。
4.根據(jù)權(quán)利要求3所述的一種基于分組集成的不平衡惡意軟件檢測方法,其特征在于,所述步驟S1還包括:
在每個(gè)特征向量末尾加一個(gè)標(biāo)志位,0表示正常樣本,1表示惡意樣本。
5.根據(jù)權(quán)利要求2所述的一種基于分組集成的不平衡惡意軟件檢測方法,其特征在于,所述訓(xùn)練數(shù)據(jù)集在不平衡數(shù)據(jù)集的占比大于50%。
6.根據(jù)權(quán)利要求2所述的一種基于分組集成的不平衡惡意軟件檢測方法,其特征在于,所述訓(xùn)練數(shù)據(jù)集在不平衡數(shù)據(jù)集的占比為60%,所述驗(yàn)證數(shù)據(jù)集在不平衡數(shù)據(jù)集的占比為20%,所述測試數(shù)據(jù)集在不平衡數(shù)據(jù)集的占比為20%。
7.根據(jù)權(quán)利要求1所述的一種基于分組集成的不平衡惡意軟件檢測方法,其特征在于,所述步驟S2中,信息增益算法通過計(jì)算特征的熵值與其條件熵的差值得到特征的IG值,IG值越大,特征越重要。
8.根據(jù)權(quán)利要求1所述的一種基于分組集成的不平衡惡意軟件檢測方法,其特征在于,所述步驟S2中,采用召回率recall與G-mean兩個(gè)指標(biāo)作為衡量指標(biāo)進(jìn)行篩選,具體如下:
若預(yù)測為惡意樣本,實(shí)際為惡意樣本,惡意樣本預(yù)測正確的數(shù)量記為TP;
若預(yù)測為正常樣本,實(shí)際為惡意樣本,惡意樣本預(yù)測錯(cuò)誤的數(shù)量記為FP;
若預(yù)測為惡意樣本,實(shí)際為正常樣本,正常樣本預(yù)測錯(cuò)誤的數(shù)量記為FN;
若預(yù)測為正常樣本,實(shí)際為正常樣本,正常樣本預(yù)測正確的數(shù)量記為TN;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶文理學(xué)院,未經(jīng)重慶文理學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010571828.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程





