[發明專利]網站檢測方法和裝置在審
| 申請號: | 201910531749.1 | 申請日: | 2019-06-19 |
| 公開(公告)號: | CN110263283A | 公開(公告)日: | 2019-09-20 |
| 發明(設計)人: | 周坤朋;秦曼;韓佑波 | 申請(專利權)人: | 鄭州悉知信息科技股份有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/951;G06F16/955 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 薛嬌 |
| 地址: | 450000 河南省鄭*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網站 異常檢測 網頁 源代碼 方法和裝置 網站地址 網站檢測 搜索引擎優化 規則檢測 異常原因 預置 申請 輸出 檢測 | ||
本申請公開了一種網站檢測方法和裝置,該方法包括:獲取待檢測的網站的網站地址;依據該網站地址,依次爬取該網站中包含的各個網頁的源代碼;依據預置的多條搜索引擎優化SEO規則,對該網站中各個網頁的源代碼進行異常檢測,得到該網站的異常檢測結果,該異常檢測結果包括該網站中不符合該SEO規則的異常網頁以及該異常網頁中不符合該SEO規則的異常原因;輸出該異常檢測結果。本申請的方案可以實現更為快速、全面和高效的對網站進行SEO規則檢測。
技術領域
本申請涉及網站構建技術領域,尤其涉及一種網站檢測方法和裝置。
背景技術
網站是指在因特網上根據一定的規則,工具制作的用于展示特定內容相關網頁的集合。人們可以通過網站可以發布自己想要公開的資訊,或者利用網站來提供相關的網絡服務。
而網站的構建需要遵循一些規則,如,較為常見的規則為搜索引擎優化(SearchEngine Optimization,SEO)規則。基于SEO規則來調整網站有利于一提高目的網站在有關搜索引擎內的排名。然而,很多網站網站在構建過程中很可能并未很好的遵循SEO規則,這樣就會導致網站存在一些需要改進的問題,因此,如何較為全面、高效的檢測出網站中存在不符合SEO規則的問題點是本領域技術人員迫切需要解決的技術問題。
發明內容
有鑒于此,本申請提供了一種網站檢測方法和裝置,以實現更為快速、全面和高效的對網站進行SEO規則檢測。
為實現上述目的,一方面,本申請提供了一種網站檢測方法,包括:
獲取待檢測的網站的網站地址;
依據所述網站地址,依次爬取所述網站中包含的各個網頁的源代碼;
依據預置的多條搜索引擎優化SEO規則,對所述網站中各個網頁的源代碼進行異常檢測,得到所述網站的異常檢測結果,所述異常檢測結果包括所述網站中不符合所述SEO規則的異常網頁以及所述異常網頁中不符合所述SEO規則的異常原因;
輸出所述異常檢測結果。
優選的,所述多條SEO規則包括:適用于網頁內的至少一條第一SEO規則以及適用于不同網頁間的至少一條第二SEO規則;
所述依據預置的多條搜索引擎優化SEO規則,對所述網站中各個網頁的源代碼進行異常檢測,包括:
按照適用于網頁內的至少一條第一SEO規則,分別對網頁中每個網頁的源代碼進行異常檢測,得到所述網站中各個網頁的異常檢測結果;
按照適用于不同網頁間的至少一條第二SEO規則,在所述網站中不同網頁之間進行異常檢測,得到所述網站中存在網頁間異常的至少一個異常網頁組以及所述異常網頁組的異常原因,所述異常網頁組包括至少兩個異常網頁。
優選的,所述至少一條第二SEO規則包括:重復網頁檢測規則;
所述按照適用于不同網頁間的至少一條第二SEO規則,在所述網站中不同網頁之間進行異常檢測,包括:
響應于所述重復網頁檢測規則,分別提取所述網站的每個網頁的正文數據;
針對所述網站中每個網頁,基于該網頁的正文數據,計算該網頁的局部敏感指紋;
針對所述網站中的每個網頁,依據所述網站中各個網頁的局部敏感指紋,分別計算該網頁與網站中其他網頁的海明距離,并確定與該網頁的海明距離小于設定閾值的至少一個網頁,將該網頁以及所述至少一個網頁確定為一組存在內容重復的異常網頁組。
優選的,所述依據所述網站地址,依次爬取所述網站中包含的各個網頁的源代碼,包括:
依據所述網站地址,爬取所述網站的主頁的源代碼;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州悉知信息科技股份有限公司,未經鄭州悉知信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910531749.1/2.html,轉載請聲明來源鉆瓜專利網。





