[發明專利]網站頁面的檢測方法、裝置、電子設備及介質有效
| 申請號: | 202010015894.7 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN110825976B | 公開(公告)日: | 2020-05-08 |
| 發明(設計)人: | 董超;蔣希敏;劉雷;趙玉元 | 申請(專利權)人: | 浙江乾冠信息安全研究院有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/955;G06F21/56;G06K9/62;H04L29/06 |
| 代理公司: | 杭州創智卓英知識產權代理事務所(普通合伙) 33324 | 代理人: | 鄭思思 |
| 地址: | 310015 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網站 頁面 檢測 方法 裝置 電子設備 介質 | ||
1.一種網站頁面的檢測方法,其特征在于,包括以下步驟:
獲取待檢測頁面;
基于所述待檢測頁面得到對應的真實URL,并記為true-url;
對所述true-url配置Referer的請求頭,并得到r-url;
通過模擬瀏覽器訪問所述r-url,得到跳轉后的URL并記為A-url;
訪問所述true-url,得到跳轉后的URL并記為B-url;
判斷所述A-url和所述B-url是否匹配,若匹配失敗,則標記所述待檢測頁面,若匹配成功,則執行補集貝葉斯模型檢測;
所述補集貝葉斯模型檢測包括以下步驟:
獲取所述待檢測頁面的源碼信息;
獲取分詞庫,所述分詞庫包括基礎詞和非法詞;
基于所述分詞庫提取代表所述源碼信息的源碼關鍵詞、與所述源碼關鍵詞的對應的權重;
基于補集貝葉斯模型、源碼關鍵詞及對應的權重得到所述待檢測頁面為非法頁面的非法概率,判斷所述非法概率是否大于預設值,若是,則標記所述待檢測頁面,其中所述補集貝葉斯公式為,,j表示每個樣本,i表示特征,就是特征值;表示一個特征i下,所有標簽類別不等于c值的樣本的特征取值之和;表示所有特征下,所有標簽類別不等于c值的樣本的特征取值之和;表示平滑系數。
3.根據權利要求1所述的網站頁面的檢測方法,其特征在于,基于所述待檢測頁面得到對應的真實URL,包括以下步驟:
獲取與所述待檢測頁面對應的搜索引擎;
基于所述搜索引擎得到與所述待檢測頁面對應的加密URL;
對所述加密URL進行解密,并得到真實URL。
4.根據權利要求1至3任意一項所述的網站頁面的檢測方法,其特征在于,還包括以下步驟:當所述A-url和所述B-url匹配成功,則判斷所述A-url是否關聯有基于腳本生成的URL鏈接,若是,則標記所述待檢測頁面。
5.根據權利要求1至3任意一項所述的網站頁面的檢測方法,其特征在于,還包括以下步驟:
當所述A-url和所述B-url匹配成功,則獲取非法URL特征庫;
判斷所述A-url是否與所述非法URL特征庫匹配,若是,則標記所述待檢測頁面。
6.根據權利要求5所述的網站頁面的檢測方法,其特征在于,若所述A-url與所述非法URL特征庫匹配失敗,則執行以下步驟:
獲取非法關鍵詞庫;
提取所述A-url的關鍵詞;
判斷所述A-url的關鍵詞是否與所述非法關鍵詞庫匹配,若是,則標記所述待檢測頁面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江乾冠信息安全研究院有限公司,未經浙江乾冠信息安全研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010015894.7/1.html,轉載請聲明來源鉆瓜專利網。





