[發明專利]一種網站的識別方法及裝置有效
| 申請號: | 201710565741.8 | 申請日: | 2017-07-12 |
| 公開(公告)號: | CN109274632B | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 付為民;郝建忠;鄭浩彬;陳濤;鄔學農 | 申請(專利權)人: | 中國移動通信集團廣東有限公司;中國移動通信集團公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;曹杰 |
| 地址: | 510623 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網站 識別 方法 裝置 | ||
1.一種網站的識別方法,其特征在于,所述方法包括:
接收用戶訪問網站的統一資源定位器URL請求,在白名單中查找所述URL請求對應的URL,若在所述白名單中查找到所述URL請求對應的URL,則連接所述URL請求對應的URL;
在黑名單中查找所述URL請求對應的URL,若在所述黑名單中查找到所述URL請求對應的URL,則生成高危風險提示信息;
若在所述白名單和所述黑名單中均沒有查找到所述URL請求對應的URL,則根據預設規則計算所述URL請求對應的URL的各個特征權重值,并根據所述各個特征權重值識別所述URL請求對應的URL是否為異常網站;
所述異常網站具體包括:
高概率異常網站、疑似異常網站和高概率正常網站;
若所述URL請求對應的URL是異常網站,則對所述URL請求對應的URL進行二次識別;
若所述二次識別的結果為所述高概率異常網站,則生成高危風險提示信息,并跟蹤識別所述高概率異常網站,二次連接所述高概率異常網站并統計二次連接次數,并添加所述高概率異常網站到所述黑名單中;
若所述二次識別的結果為所述高概率正常網站,則直接連接所述高概率正常網站,并添加所述高概率正常網站到所述白名單中;
若所述二次識別的結果為所述疑似異常網站,則生成一般風險提示信息,跟蹤識別所述疑似異常網站,二次連接所述高概率異常網站并統計二次連接次數,并添加所述疑似異常網站到灰名單中。
2.根據權利要求1所述的方法,其特征在于,所述根據預設規則計算所述URL請求對應的URL的各個特征權重值,具體包括:
根據預設規則計算所述URL請求對應的URL的域名名稱相似度權重、網頁內容相似度權重、用戶舉報量的權重、二次訪問量權重四個維度的特征權重值。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
根據用戶每次反饋信息、爬取網頁內容、更新網頁內容特征相似度值、網站二次訪問量的周期性更新信息對所述黑名單、所述白名單和所述灰名單進行迭代計算識別;
若識別結果為所述高概率異常網站,則添加到所述黑名單中;
若識別結果為所述高概率正常網站,則添加到所述白名單中;
若識別結果既不是所述高概率異常網站也不是所述高概率正常網站,則繼續保留在所述灰名單中等待下一次迭代計算,進行識別。
4.根據權利要求2所述的方法,其特征在于,所述域名名稱相似度權重的計算方法包括:
建立白名單網站域名庫;
對比所述URL請求對應的URL的域名與所述白名單網站域名庫中的域名,判斷是否存在常見拼寫錯誤、元音字符替代、同音異形字替換、錯誤的頂級域名替換、錯誤的二級域名替換、單數復數變換、同形字、缺失或重復某一字符、相鄰字符交換位置、鍵盤相鄰字符替代或插入、分隔字符的插入或刪除內容,得到判斷結果;
根據所述判斷結果,計算出所述URL請求對應的URL的域名與所述白名單網站域名庫中的域名的相似度得分值,并獲取所述得分值中的最大值作為所述URL請求對應的URL的域名名稱相似度權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團廣東有限公司;中國移動通信集團公司,未經中國移動通信集團廣東有限公司;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710565741.8/1.html,轉載請聲明來源鉆瓜專利網。





