[發明專利]網站檢測方法和裝置在審
| 申請號: | 201910531749.1 | 申請日: | 2019-06-19 |
| 公開(公告)號: | CN110263283A | 公開(公告)日: | 2019-09-20 |
| 發明(設計)人: | 周坤朋;秦曼;韓佑波 | 申請(專利權)人: | 鄭州悉知信息科技股份有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/951;G06F16/955 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 薛嬌 |
| 地址: | 450000 河南省鄭*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網站 異常檢測 網頁 源代碼 方法和裝置 網站地址 網站檢測 搜索引擎優化 規則檢測 異常原因 預置 申請 輸出 檢測 | ||
1.一種網站檢測方法,其特征在于,包括:
獲取待檢測的網站的網站地址;
依據所述網站地址,依次爬取所述網站中包含的各個網頁的源代碼;
依據預置的多條搜索引擎優化SEO規則,對所述網站中各個網頁的源代碼進行異常檢測,得到所述網站的異常檢測結果,所述異常檢測結果包括所述網站中不符合所述SEO規則的異常網頁以及所述異常網頁中不符合所述SEO規則的異常原因;
輸出所述異常檢測結果。
2.根據權利要求1所述的網站檢測方法,其特征在于,所述多條SEO規則包括:適用于網頁內的至少一條第一SEO規則以及適用于不同網頁間的至少一條第二SEO規則;
所述依據預置的多條搜索引擎優化SEO規則,對所述網站中各個網頁的源代碼進行異常檢測,包括:
按照適用于網頁內的至少一條第一SEO規則,分別對網頁中每個網頁的源代碼進行異常檢測,得到所述網站中各個網頁的異常檢測結果;
按照適用于不同網頁間的至少一條第二SEO規則,在所述網站中不同網頁之間進行異常檢測,得到所述網站中存在網頁間異常的至少一個異常網頁組以及所述異常網頁組的異常原因,所述異常網頁組包括至少兩個異常網頁。
3.根據權利要求2所述的網站檢測方法,其特征在于,所述至少一條第二SEO規則包括:重復網頁檢測規則;
所述按照適用于不同網頁間的至少一條第二SEO規則,在所述網站中不同網頁之間進行異常檢測,包括:
響應于所述重復網頁檢測規則,分別提取所述網站的每個網頁的正文數據;
針對所述網站中每個網頁,基于該網頁的正文數據,計算該網頁的局部敏感指紋;
針對所述網站中的每個網頁,依據所述網站中各個網頁的局部敏感指紋,分別計算該網頁與網站中其他網頁的海明距離,并確定與該網頁的海明距離小于設定閾值的至少一個網頁,將該網頁以及所述至少一個網頁確定為一組存在內容重復的異常網頁組。
4.根據權利要求1所述的網站檢測方法,其特征在于,所述依據所述網站地址,依次爬取所述網站中包含的各個網頁的源代碼,包括:
依據所述網站地址,爬取所述網站的主頁的源代碼;
提取所述主頁的源代碼中包含的至少一條鏈接,并將提取到的鏈接緩存到鏈接集合中;
針對所述鏈接集合中未被處理的每條鏈接,依據該鏈接抓取所述網站中的網頁的源代碼;
提取所述網頁的源代碼中包含的鏈接,并將提取到的鏈接緩存到所述鏈接集合中;
如果所述鏈接集合中存在尚未被處理的鏈接,返回執行所述針對每條鏈接,依據該鏈接抓取所述網站中的網頁的源代碼的操作,直至所述鏈接集合中不存在尚未被處理的鏈接,得到所述網站中包含的各個網頁的源代碼。
5.根據權利要求4所述的網站檢測方法,其特征在于,所述針對所述鏈接集合中的每條鏈接,依據該鏈接抓取所述網站中的網頁的源代碼,包括:
從所述鏈接集合中確定當前待處理的目標鏈接;
從分布式爬蟲中,確定適合處于該目標鏈接的目標爬蟲;
通過所述目標爬蟲抓取所述目標鏈接所指向的網頁的源代碼。
6.根據權利要求1所述的網站檢測方法,其特征在于,所述輸出所述異常檢測結果之前,還包括:
依據搜索引擎優化SEO規則和所述異常網頁中不符合所述SEO規則的異常原因,確定網站中所述異常網頁的優化方案;
在所述輸出所述異常檢測結果的同時,還包括:輸出所述網站中所述異常網頁的優化方案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州悉知信息科技股份有限公司,未經鄭州悉知信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910531749.1/1.html,轉載請聲明來源鉆瓜專利網。





