[發明專利]一種檢測網絡爬蟲運行狀態的方法及裝置有效
| 申請號: | 201710612520.1 | 申請日: | 2017-07-25 |
| 公開(公告)號: | CN109298987B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 孫德彬 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢測 網絡 爬蟲 運行 狀態 方法 裝置 | ||
本發明公開了一種檢測網絡爬蟲運行狀態的方法及裝置,涉及互聯網技術領域,能夠實時檢測網絡爬蟲的運行狀態,保證了爬取網絡數據的完整性、準確性,本發明的主要技術方案為:判斷網絡爬蟲爬取的當前網頁是否存在訪問異常;若存在,則根據所述當前網頁對應的網站在預置對比庫中的對比頁的網頁地址信息,爬取所述對比頁的第一頁面內容信息,所述預置對比庫用于存儲各個網站設置的對比頁,所述對比頁中包含對比頁的網頁地址信息和對比頁的第二頁面內容信息;根據所述對比頁的頁面內容信息的爬取結果,確定所述當前網頁對應的網站是否禁用所述網絡爬蟲。本發明主要用于網絡爬蟲爬取網絡數據。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種檢測網絡爬蟲運行狀態的方法及裝置。
背景技術
隨著大數據時代的到來,信息數據的重要性已經不言而喻,人們可以通過網絡爬蟲程序抓取不同網站的資源內容,從而整合成網絡信息庫,用于各個技術領域的科學研究。其中,網絡爬蟲又被稱為網絡蜘蛛、網絡機器人或者網頁追逐者,一般采取廣度優先策略和深度優先策略自動地對萬維網信息的程序或者腳本進行抓取,比如:應用在搜索引擎爬取網絡數據的過程中。
目前,在網絡爬蟲爬取網絡數據的過程中,由于爬取的速度過快,比如,在一分鐘內過度的訪問網站,如此過多的訪問請求次數,導致服務器響應速度慢,同時也影響其他用戶的訪問體驗,那么相應的,該網站采取的措施是禁止該網絡爬蟲的爬取操作。又或者,在一些網站頁面內容中,存在版權保護的數據信息或者網站不愿意公開的數據信息,該網站也會禁止該網絡爬蟲的爬取操作。在現有的檢測網站禁止網絡爬蟲爬取操作的技術中,主要是采用在后期對爬取的所有數據進行人工校驗的方法,判斷在整個爬取工作過程中是否存在上述網絡爬蟲無法爬取網站數據的情況。然而,通過現有的方法,無法解決爬蟲被禁止后對該網站內容的繼續有效爬取工作,使得最終爬取的數據結果是不完整的,從而導致網絡爬蟲爬取的網站數據存在缺失,不夠準確。
發明內容
有鑒于此,本發明提供一種檢測網絡爬蟲運行狀態的方法及裝置,主要目的在于可以實時檢測網站是否禁用網絡爬蟲,并可以及時更換爬取策略,保證了爬取網絡數據的完整性、準確性,同時也提高了爬取工作效率。
為了解決上述問題,本發明主要提供如下技術方案:
一方面,本發明提供了一種檢測網絡爬蟲運行狀態的方法,該方法包括:
判斷網絡爬蟲爬取的當前網頁是否存在訪問異常;
若存在,則根據所述當前網頁對應的網站在預置對比庫中的對比頁的網頁地址信息,爬取所述對比頁的第一頁面內容信息,所述預置對比庫用于存儲各個網站設置的對比頁,所述對比頁中包含對比頁的網頁地址信息和對比頁的第二頁面內容信息;
根據所述對比頁的頁面內容信息的爬取結果,確定所述當前網頁對應的網站是否禁用所述網絡爬蟲。
優選的,所述根據所述當前網頁對應的網站在預置對比庫中的對比頁的網頁地址信息,爬取所述對比頁的第一頁面內容信息包括:
根據所述當前網頁的地址信息獲取對應的網站;
查詢所述網站在預置對比庫中存儲的對比頁的網頁地址信息;
根據所述對比頁的網頁地址信息,爬取所述對比頁的第一頁面內容信息。
優選的,所述判斷網絡爬蟲爬取的當前網頁是否存在訪問異常包括:
爬取當前網頁的頁面內容信息,當所述頁面內容信息的數據量小于閾值時,確定所述當前網頁存在訪問異常;
或者,獲取所述當前網頁中包含的狀態碼,當所述狀態碼存在于預置黑名單中時,確定所述當前網頁存在訪問異常,其中,所述黑名單中包含有用于判斷網頁訪問異常的狀態碼。
優選的,所述根據所述對比頁的頁面內容信息的爬取結果,確定所述當前網頁對應的網站是否禁用所述網絡爬蟲包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710612520.1/2.html,轉載請聲明來源鉆瓜專利網。





