[發明專利]基于匈牙利匹配算法的釣魚網頁檢測方法無效
| 申請號: | 201010139929.4 | 申請日: | 2010-04-02 |
| 公開(公告)號: | CN101826105A | 公開(公告)日: | 2010-09-08 |
| 發明(設計)人: | 張衛豐;貢亮;張迎周;周國強;陸柳敏;許碧娣;田先桃;李濤賢;曾兵;彭寅;陸柳青 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 葉連生 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 匈牙利 匹配 算法 釣魚 網頁 檢測 方法 | ||
1.一種基于匈牙利匹配算法的釣魚網頁檢測方法,其特征在于在釣魚網頁檢測過程中通過爬蟲預取一定數量的網頁,在此基礎上提取網站拓撲特征,以此作為釣魚網頁檢測的依據,分類器采用增量學習方法,保證分類器的及時更新,具體實現步驟為:
一、采用基于匈牙利算法的文本特征簽名及圖像簽名的相似度計算方法來分別計算網頁簽名之間的相似性,
1)文本節點相似性計算:實現對網頁中的每個文本節點特征的對比功能,每個節點的特征是一個6維向量:
●文字內容??計算曼哈頓距離,
●前景色????計算曼哈頓距離,
●背景色????計算曼哈頓距離,
●字體大小??計算曼哈頓距離,
●字體名字??相同為0,否則為1,
●該文本節點在網頁中的位置計算歐氏距離;
2)圖像節點相似性計算:實現對網頁中的每個圖片節點特征的對比功能,每個節點的特征是一個5維向量:
●圖片的來源屬性值??計算曼哈頓距離,
●圖片的面積??計算歐氏距離,
●顏色直方圖??計算歐氏距離,
●二維哈爾小波變換??計算歐氏距離,
●該圖片節點在網頁中的位置??計算歐氏距離;
3)全局圖像特征相似性計算:實現對網頁的全局圖片特征的對比功能,特征向量是一個2維向量:
●顏色直方圖??計算歐氏距離,
●二維哈爾小波變換??計算歐氏距離;
4)網頁簽名相似性的計算:
步驟1)利用節點間相似性計算方法計算兩兩節點之間的相似性;
步驟2)構造二分圖G=(X,Y,E),其中X與Y分別表示兩個網頁簽名,E表示X中所有節點與Y中所有節點之間的邊;
步驟3)如果X與Y的簽名長度相同,則轉步驟5;
步驟4)生成二分圖G的擴展二分完全圖G;
步驟5)使用匈牙利匹配算法獲得G的最佳匹配M;
步驟6)根據M中的邊的權重相加取平均即為X與Y的相似度;
二、采用曲線下面積AUC方法來確定文本特征權重及圖像特征內部權重
1)計算每組參數“曲線下面積”的過程:
步驟21)構造特征庫及樣本庫:將釣魚的網頁作為比較對象特征庫,與之對應的釣魚網頁正例與其它一般網頁反例構成樣本庫;
步驟22)將每個樣本與特征庫中的每個網頁進行相似性計算,取相似度的最大值作為樣本與特征庫之間的相似度;
步驟23)記錄每個樣本計算得到的相似度;
步驟24)對于樣本集合計算得到的每個相似度,統計計算曲線下面積AUC值,即按照區間[0,1]遍歷閥值,計算得到對應的“真正例率”和“假正例率”值,得到對應的“真正例率-假反例率曲線”,該曲線下的面積即為“曲線下面積”值;
2)最優參數的確定:
步驟221)對于文本特征、圖像特征以及全局圖像特征每組參數通過以上方法得到對應的“曲線下面積”值;
步驟222)選擇“曲線下面積”最大的那組參數作為最優的內部參數,分別得到最優的文本特征權重、圖像特征權重以及全局圖像特征權重;
三、采用自然對數回歸分析法來確定文本特征權重、圖像特征權重及整體圖像特征權重
1)構造數據集:
步驟31)利用確定的文本特征內部權重計算樣本集中每個樣本與特征庫之間的文本特征簽名相似性;
步驟32)利用確定的圖像特征內部權重計算樣本集中每個樣本與特征庫之間的圖像特征簽名相似性;
步驟33)利用確定的全局圖像特征內部權重計算樣本集中每個樣本與特征庫之間的全局圖像特征簽名相似性;
步驟34)將以上計算得到的相似性值按照對應的樣本放在一行,在行的最后根據是否為釣魚網頁來填寫對應的值。對于釣魚網頁,填寫“真”;對于正常網頁,填寫“假”;
步驟35)通過以上過程分別構造訓練集和測試集;
2)基于自然對數回歸的訓練及分類過程:
步驟321)將訓練數據集輸入到自然對數回歸分類器中;
步驟322)將訓練好的分類器保存下來;
步驟323)利用訓練好的分類器對測試集進行預測,并將預測結果記錄;
步驟324)根據預測結果與真實結果的對比,統計對應的精度和召回率;
四、利用以上步驟確定好的內部權重、外部權重以及自然對數回歸方程來檢測釣魚網頁
步驟41)將待保護的網頁通過步驟一來提取每個網頁的特征簽名,這些特征簽名組合在一起構成特征庫;
步驟42)對于待檢測的網頁,提取其特征簽名;
步驟43)對于特征庫中的每個特征簽名,利用網頁簽名相似性的計算,計算其與待檢測網頁的特征簽名之間的相似性;
步驟44)取步驟43)中相似性的最大值作為待檢測網頁與特征庫的相似性;
步驟45)如果待檢測網頁與特征庫的相似性大于設定的閥值0.9,則認為待檢測網頁為釣魚網頁;否則為非釣魚網頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010139929.4/1.html,轉載請聲明來源鉆瓜專利網。





