[發(fā)明專利]惡意網(wǎng)頁識(shí)別模型、識(shí)別模型建立方法、識(shí)別方法及系統(tǒng)在審
申請(qǐng)?zhí)枺?/td> | 202010026951.1 | 申請(qǐng)日: | 2020-01-10 |
公開(公告)號(hào): | CN111259219A | 公開(公告)日: | 2020-06-09 |
發(fā)明(設(shè)計(jì))人: | 曲武 | 申請(qǐng)(專利權(quán))人: | 北京金睛云華科技有限公司 |
主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/955;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 沈陽友和欣知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 21254 | 代理人: | 楊群 |
地址: | 100088 北京市海*** | 國(guó)省代碼: | 北京;11 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 惡意 網(wǎng)頁 識(shí)別 模型 建立 方法 系統(tǒng) | ||
1.一種惡意網(wǎng)頁識(shí)別模型的建立方法,其特征在于,包括如下步驟:
1)使用爬蟲工具在網(wǎng)絡(luò)中進(jìn)行爬蟲,將爬取到的網(wǎng)頁內(nèi)容數(shù)據(jù)樣本人為鑒別,分為惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本和正常網(wǎng)頁內(nèi)容數(shù)據(jù)樣本;
2)基于惡意網(wǎng)頁內(nèi)容數(shù)據(jù)的頁面內(nèi)容特征,構(gòu)建惡意網(wǎng)頁的網(wǎng)頁特征,基于正常網(wǎng)頁內(nèi)容數(shù)據(jù)的頁面內(nèi)容特征,構(gòu)建正常網(wǎng)頁的網(wǎng)頁特征;
3)使用SMOTE算法使惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本翻倍;
4)使用GAN算法對(duì)翻倍后的惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本進(jìn)行增強(qiáng),使惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本數(shù)量與正常網(wǎng)頁內(nèi)容數(shù)據(jù)樣本數(shù)量均衡;
5)將增強(qiáng)后的惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本與正常網(wǎng)頁內(nèi)容數(shù)據(jù)樣本合并后隨機(jī)劃分為三個(gè)部分,即訓(xùn)練集、測(cè)試集和驗(yàn)證集;
6)利用訓(xùn)練集和測(cè)試集訓(xùn)練5個(gè)分類器,即5層隱藏層ANN、隨機(jī)森林、SVM、logistic回歸以及帶權(quán)重的KNN,利用5個(gè)分類器分別循環(huán)迭代,保留每個(gè)分類器F1值最高的,即對(duì)應(yīng)生成5個(gè)模型,分別設(shè)為mdl_ann、mdl_rm、mdl_svm、mdl_logistic和mdl_wknn,分別設(shè)每個(gè)模型的初始權(quán)重為1/5,使用5個(gè)模型對(duì)訓(xùn)練分類器過程中產(chǎn)生的新的數(shù)據(jù)集進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果使用下式形成初始融合模型:
1/5*mdl_ann.predict+1/5*mdl_rm.predict+1/5*mdl_svm.predict+1/5*
mdl_logistic.predict+1/5*mdl_wknn.predict;
7)利用驗(yàn)證集的數(shù)據(jù)樣本,對(duì)初始融合模型進(jìn)行權(quán)重調(diào)節(jié),得到最高準(zhǔn)確率的識(shí)別模型,用于惡意網(wǎng)頁的識(shí)別;對(duì)初始融合模型進(jìn)行權(quán)重調(diào)節(jié)的方法為:
將步驟5)中的驗(yàn)證集數(shù)據(jù)分別輸入到步驟6)訓(xùn)練的5個(gè)分類器的模型中,進(jìn)行分類,得到五個(gè)準(zhǔn)確率,按高低排序,排序最高的分類器權(quán)重值增加0.1,相應(yīng)的排序最低的分類器減去0.1,循環(huán)迭代30次,輸出權(quán)重調(diào)節(jié)后最高準(zhǔn)確率的模型,用于惡意網(wǎng)頁的識(shí)別。
2.如權(quán)利要求1所述的一種惡意網(wǎng)頁識(shí)別模型的建立方法,其特征在于,所述步驟2)中,根據(jù)如下頁面內(nèi)容特征來構(gòu)建惡意網(wǎng)頁的網(wǎng)頁特征和正常網(wǎng)頁的網(wǎng)頁特征:
文檔代碼內(nèi)執(zhí)行程序的數(shù)量、隱藏的可執(zhí)行遠(yuǎn)程代碼出現(xiàn)的次數(shù)、不匹配的link標(biāo)簽出現(xiàn)的次數(shù)、頁面中含有鏈接的數(shù)量、網(wǎng)頁中的圖片內(nèi)容是否具有黃色暴力賭博游戲的內(nèi)容、image標(biāo)簽數(shù)量、script標(biāo)簽數(shù)量、embed標(biāo)簽數(shù)量、object標(biāo)簽數(shù)量、window.open函數(shù)個(gè)數(shù)、document.location函數(shù)個(gè)數(shù)、document.cookie函數(shù)個(gè)數(shù)、windows.location函數(shù)個(gè)數(shù);
每個(gè)惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本由惡意網(wǎng)頁的網(wǎng)頁特征代表,每個(gè)正常網(wǎng)頁內(nèi)容數(shù)據(jù)樣本由正常網(wǎng)頁的網(wǎng)頁特征代表。
3.如權(quán)利要求1所述的一種惡意網(wǎng)頁識(shí)別模型的建立方法,其特征在于,所述步驟3)中,使用SMOTE算法使惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本翻倍的方法為:
301)設(shè)惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本數(shù)量為T,取惡意網(wǎng)頁內(nèi)容數(shù)據(jù)的1個(gè)樣本,設(shè)為i,樣本i用特征向量xi表示,i∈{1,……,T}:
302)從T個(gè)樣本中找到樣本xi的k個(gè)近鄰,表示為xi(near),near∈{1,……,k};
303)從k個(gè)近鄰中隨機(jī)選擇一個(gè)樣本xi(nn),再生成一個(gè)0-1之間的隨機(jī)數(shù)ζ1,合成一個(gè)新樣本xi1,xi1=xi+ζ1*(xi(nn)-xi);
304)將步驟303)重復(fù)進(jìn)行N次,形成N個(gè)新樣本,xinew,new∈{1,……,N};
305)對(duì)全部T個(gè)樣本進(jìn)行步驟302)至步驟304),得到NT個(gè)新樣本,即對(duì)T個(gè)樣本翻了N倍。
4.如權(quán)利要求1所述的一種惡意網(wǎng)頁識(shí)別模型的建立方法,其特征在于,所述步驟4)中,采用WGAN-GP網(wǎng)絡(luò)對(duì)翻倍后的惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本進(jìn)行增強(qiáng),使惡意網(wǎng)頁內(nèi)容數(shù)據(jù)樣本數(shù)量與正常網(wǎng)頁內(nèi)容數(shù)據(jù)樣本數(shù)量均衡。
5.如權(quán)利要求1所述的一種惡意網(wǎng)頁識(shí)別模型的建立方法,其特征在于,所述步驟5)中,訓(xùn)練集、測(cè)試集和驗(yàn)證集的比例分別為70%、20%和10%。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京金睛云華科技有限公司,未經(jīng)北京金睛云華科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010026951.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 惡意特征數(shù)據(jù)庫的建立方法、惡意對(duì)象檢測(cè)方法及其裝置
- 用于檢測(cè)惡意鏈接的方法及系統(tǒng)
- 惡意信息識(shí)別方法、惡意信息識(shí)別裝置及系統(tǒng)
- 主動(dòng)式移動(dòng)終端惡意軟件網(wǎng)絡(luò)流量數(shù)據(jù)集獲取方法及系統(tǒng)
- 一種大數(shù)據(jù)告警平臺(tái)系統(tǒng)及其方法
- 一種追溯惡意進(jìn)程的方法、裝置及存儲(chǔ)介質(zhì)
- 一種相似惡意軟件推薦方法、裝置、介質(zhì)和設(shè)備
- 軟件惡意行為檢測(cè)方法及系統(tǒng)
- 惡意樣本增強(qiáng)方法、惡意程序檢測(cè)方法及對(duì)應(yīng)裝置
- 惡意語音樣本的確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序