[發明專利]一種多特征融合的釣魚網頁檢測方法有效
| 申請號: | 201611028629.2 | 申請日: | 2016-11-18 |
| 公開(公告)號: | CN106789888B | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 徐光俠;宋洋洋;高郭威;劉宴兵;劉俊;齊錦;鄭爽;王天羿 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06F16/95 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅;李金蓉 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特征 融合 釣魚 網頁 檢測 方法 | ||
1.一種多特征融合的釣魚網頁檢測方法,其特征在于,包括訓練過程和檢測過程,其中所述訓練過程為:
S1:根據釣魚網頁URL數據集收集特征數據,包括URL特征向量X1、頁面信息特征向量X2以及搜索信息特征向量X3,從特征數據中隨機抽取少量數據作為標記數據樣本反例L1,其余部分作為無標記數據樣本反例U1;
X1=[URL的路徑級數,URL中dot數,URL的編碼格式,URL字節數,IP地址,敏感詞匯,URL中長詞數,TLD的位置和數量];
X2=[可疑的Form表單,可疑的action域,頁面的鏈接信息,頁面框架或JS跳轉];
X3=[域名日期,PageRank值,BackLink值,頁面相似檢測];
所述頁面相似檢測的具體檢測方法如下:
(1)將待檢測頁面的URL記為URL_old,獲取待檢測頁面的html,并過濾其中的html標簽和JavaScript腳本語言;
(2)將過濾后的html內容,通過TF-IDF算法計算其中關鍵詞;
(3)結合關鍵詞和域名在搜索引擎中檢索,并獲取檢索信息S1,如果搜索引擎有建議搜索內容,則根據建議搜索內容二次搜索,獲取檢索信息S2,根據S1或S2獲取的URL記為URL_new,進入步驟(4);如果檢索結果為NULL,則認為不是釣魚頁面記為1;
(4)對URL_old和URL_new進行相似度檢測,釣魚頁面則記為0,否則記為1;具體步驟如下:
1)計算URL_old和URL_new域名中的dot的級數是否相同,相同則fea_dot=1,否則fea_dot=0,fea_dot表示dot特征;
2)取URL_old和URL_new子域名的編輯距離特征記為fea_subdom(;取URL_old和URL_new主域名的編輯距離特征記為fea_pridom;并對fea_subdom和fea_pridom進行歸一化處理,如果fea_subdom和fea_pridom的值為0,則將轉化為1存儲,否則利用進行歸一化處理,x表示fea_subdom或fea_pridom的值,x'表示轉換后對應的結果;
3)比較URL_old和URL_new是否具有相同的頂級域名TLD,以及TLD在每個URL中出現的次數是否相同,如果相同則fea_TLD=1,否則fea_TLD=0,fea_TLD表示TLD特征;
4)通過fea_dot、fea_subdom、fea_pridom和fea_TLD值進行線性回歸預測,釣魚頁面則記為0,否則記為1;
S2:從非釣魚網頁URL數據集中收集特征數據,通過Alexa獲取排名靠前的合法網頁的特征數據X,形成標記數據樣本正例L2,其余部分作為無標記數據樣本正例U2,根據S1和S2得到標記訓練數據集L,L=L1+L2,和無標記訓練數據集U,U=U1+U2;
S3:從L中通過Bootstrap Sampling方法進行重復采樣獲得三個訓練集合B1、B2和B3;
S4:從B1、B2和B3中分別提取URL特征向量X1、頁面信息特征向量X2以及搜索信息特征向量X3,將所提取的三種特征向量分別訓練得到三個初始化分類器h1、h2和h3;
S5:針對每一個初始化分類器進行以下操作:在h1、h2和h3中任選擇一個初始化分類器作為主分類器,分別將另外2個分類器作為輔助分類器,分別在無標記訓練數據集U進行預測得到標記結果U2和U3;
S6:將U2與U3中具有相同結果的數據樣本和L組成新的標記訓練數據集,用來重新訓練主分類器;
S7:重復S5操作,通過不斷迭代更新,直到三個分類器對無標記訓練數據集都不再變化為止;
檢測過程為:攔截用戶請求的URL信息,進行Form表單檢測,返回檢測結果,如果存在危險,則提取URL特征向量X1、頁面信息特征向量X2以及搜索信息特征向量X3,利用h1、h2和h3進行判斷。
2.根據權利要求1所述一種多特征融合的釣魚網頁檢測方法,其特征在于:所述PageRank值計算過程中通過Min-Max標準化進行歸一化處理其中PR表示PageRank的值,PR'表示PR歸一化的值;BackLink通過進行歸一化處理,BL表示BackLink的值,BL'表示BL歸一化的值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611028629.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種膠囊壓制機
- 下一篇:一種滾模式軟膠囊壓制機





