[發明專利]一種中文釣魚網站檢測方法及系統在審
| 申請號: | 201410482121.4 | 申請日: | 2014-09-19 |
| 公開(公告)號: | CN104217160A | 公開(公告)日: | 2014-12-17 |
| 發明(設計)人: | 張瀟;姜青山;張巍 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | G06F21/55 | 分類號: | G06F21/55;G06F17/30 |
| 代理公司: | 深圳市銘粵知識產權代理有限公司 44304 | 代理人: | 孫偉峰 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 釣魚 網站 檢測 方法 系統 | ||
1.一種中文釣魚網站檢測方法,其特征在于,所述方法包括:
S1、客戶端獲取網址URL;
S2、分別提取網址URL特征和網站頁面內容特征作為特征向量;
S3、通過支持向量機、擴展的樸素貝葉斯算網站頁面內容特征法、決策樹算法、鏈接和表單處理對特征向量進行分類訓練;
S4、對分類訓練的結果進行分類集成,判斷網址是否為釣魚網站。
2.根據權利要求1所述的方法,其特征在于,所述步驟S1中網址URL的獲取方式包括手動輸入、二維碼掃描、點擊郵件/短信中的鏈接。
3.根據權利要求1所述的方法,其特征在于,所述步驟S2前還包括:
將網址URL與本地數據庫中的黑名單和白名單進行比對;
若網址URL在黑名單中,則返回該網址URL為釣魚網站;
若網址URL在白名單中,則返回該網址URL為正常網址。
4.根據權利要求1所述的方法,其特征在于,所述步驟S2中的網址URL特征包括:
域名中是否包含IP形式、URL中是否包含16進制字符、長度是否大于50、域名級數是否大于4、路徑級數是否大于3、路徑中是否含有敏感關鍵字、Whois注冊信息是否在一年之內、網站排名信息是否靠后。
5.根據權利要求1所述的方法,其特征在于,所述步驟S2中的網站頁面內容特征包括:string字符串、title標簽、alt標簽、keyword標簽、copyright標簽、description標簽、src名稱、frame框架、form表單中的中文文本。
6.根據權利要求5所述的方法,其特征在于,所述步驟S2還包括:
對string字符串、title標簽、alt標簽、keyword標簽、copyright標簽、description標簽、src名稱、frame框架、form表單中的中文文本進行分詞,使用TF-IDF算法提取代表性較強的特征詞作為對string字符串、title標簽、alt標簽、keyword標簽、copyright標簽、description標簽、src名稱、frame框架、form表單網站頁面內容特征的特征向量。
7.根據權利要求4所述的方法,其特征在于,所述步驟S3包括:
對網址URL特征采用決策樹算法進行分類訓練。
8.根據權利要求6所述的方法,其特征在于,所述步驟S3包括:
對string字符串采用支持向量機進行分類訓練;
對title標簽、alt標簽、keyword標簽、copyright標簽、description標簽采用擴展的樸素貝葉斯算法進行分類訓練;
對src名稱、frame框架、form表單采用鏈接和表單處理法進行分類訓練。
9.根據權利要求1所述的方法,其特征在于,所述步驟S4具體為:
通過采樣計算每個特征向量的精確度和召回率;
根據得到的精確度和召回率判斷每個特征向量在總體判斷中所占權重;
根據對應特征向量的檢測結果和在總體判斷中所占權重,對分類訓練的結果進行分類集成,判斷網址是否為釣魚網站。
10.一種如權利要求1所述的中文釣魚網站檢測系統,其特征在于,所述系統包括:
客戶端模塊,獲取網址URL;
特征提取模塊,提取網址URL特征和網站頁面內容特征作為特征向量;
分類訓練模塊,通過支持向量機、擴展的樸素貝葉斯算網站頁面內容特征法、決策樹算法、鏈接和表單處理對特征向量進行分類訓練;
分類集成模塊,對分類訓練的結果進行分類集成,判斷網址是否為釣魚網站。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410482121.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多軟件系統軟件版本校驗方法
- 下一篇:行動式隨身學習讀取裝置





