[發明專利]網站頁面的檢測方法、裝置、電子設備及介質有效
| 申請號: | 202010015894.7 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN110825976B | 公開(公告)日: | 2020-05-08 |
| 發明(設計)人: | 董超;蔣希敏;劉雷;趙玉元 | 申請(專利權)人: | 浙江乾冠信息安全研究院有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/955;G06F21/56;G06K9/62;H04L29/06 |
| 代理公司: | 杭州創智卓英知識產權代理事務所(普通合伙) 33324 | 代理人: | 鄭思思 |
| 地址: | 310015 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網站 頁面 檢測 方法 裝置 電子設備 介質 | ||
本發明公開了一種網站頁面的檢測方法,涉及通信技術領域,用于解決由于非法網頁的檢測難度大而導致工作人員負擔重的問題,該方法具體包括以下步驟,獲取待檢測頁面;基于待檢測頁面得到對應的真實URL,并記為true?url;對true?url配置Referer的請求頭,并得到r?url;通過模擬瀏覽器訪問r?url,得到跳轉后的URL并記為A?url;訪問true?url,得到跳轉后的URL并記為B?url;判斷A?url和B?url是否匹配,若匹配失敗,則標記待檢測頁面,若匹配成功,則執行補集貝葉斯模型檢測。該方法通過自動檢測以代替人工檢測,從而降低工作人員的壓力。本發明還公開了一種網站頁面的檢測裝置、電子設備及計算機可讀介質。
技術領域
本發明涉及通信技術領域,尤其涉及一種網站頁面的檢測方法、裝置、電子設備及介質。
背景技術
伴隨著互聯網技術的不斷發展,網站為用戶提供了豐富多彩的內容,如:新聞、公告、論壇等。但同樣是由于技術的發展,網站也容易受到黑客入侵,從而導致經常發生網站頁面被篡改的事件。
其中,非法頁面包括被劫持的頁面。具體地,當頁面被劫持時,用戶使用HTTP請求該頁面的時候,會出現有不屬于網站范疇的廣告,或者是跳轉到某個不屬于網站范疇的頁面。
針對于該非法頁面,常見的檢測方法有外部檢測。但是由于網站中被劫持的頁面往往是幾個月前甚至幾年前的頁面,或黑客添加的頁面在該網站中搜索不到等原因,從而會提高工作難度,導致工作人員的負擔加重。
發明內容
為了克服現有技術的不足,本發明的目的之一在于提供一種網站頁面的檢測方法,具有的減輕工作人員負擔優點。
本發明的目的之一采用如下技術方案實現:
一種網站頁面的檢測方法,包括以下步驟:
獲取待檢測頁面;
基于所述待檢測頁面得到對應的真實URL,并記為true-url;
對所述true-url配置Referer的請求頭,并得到r-url;
通過模擬瀏覽器訪問所述r-url,得到跳轉后的URL并記為A-url;
訪問所述true-url,得到跳轉后的URL并記為B-url;
判斷所述A-url和所述B-url是否匹配,若匹配失敗,則標記所述待檢測頁面,若匹配成功,則執行補集貝葉斯模型檢測;
所述補集貝葉斯模型檢測包括以下步驟:
獲取所述待檢測頁面的源碼信息;
獲取分詞庫,所述分詞庫包括基礎詞和非法詞;
基于所述分詞庫提取代表所述源碼信息的源碼關鍵詞、與所述源碼關鍵詞的對應的權重;
基于補集貝葉斯模型、源碼關鍵詞及對應的權重得到所述待檢測頁面為非法頁面的非法概率,判斷所述非法概率是否大于預設值,若是,則標記所述待檢測頁面,其中所述補集貝葉斯公式為,,j表示每個樣本,i表示特征,就是特征值;表示一個特征i下,所有標簽類別不等于c值的樣本的特征取值之和;表示所有特征下,所有標簽類別不等于c值的樣本的特征取值之和;表示平滑系數。
進一步地,獲取待檢測頁面,包括以下步驟:
獲取待檢測域名和關鍵詞;
基于所述待檢測域名和所述關鍵詞進行搜索引擎搜索,并得到所述待檢測頁面。
進一步地,基于所述待檢測頁面得到對應的真實URL,包括以下步驟:
獲取與所述待檢測頁面對應的搜索引擎;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江乾冠信息安全研究院有限公司,未經浙江乾冠信息安全研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010015894.7/2.html,轉載請聲明來源鉆瓜專利網。





