[發(fā)明專利]一種檢測網(wǎng)絡(luò)爬蟲運行狀態(tài)的方法及裝置有效
| 申請?zhí)枺?/td> | 201710612520.1 | 申請日: | 2017-07-25 |
| 公開(公告)號: | CN109298987B | 公開(公告)日: | 2021-10-15 |
| 發(fā)明(設(shè)計)人: | 孫德彬 | 申請(專利權(quán))人: | 北京國雙科技有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30 |
| 代理公司: | 北京鼎佳達(dá)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100083 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 檢測 網(wǎng)絡(luò) 爬蟲 運行 狀態(tài) 方法 裝置 | ||
1.一種檢測網(wǎng)絡(luò)爬蟲運行狀態(tài)的方法,其特征在于,所述方法包括:
判斷網(wǎng)絡(luò)爬蟲爬取的當(dāng)前網(wǎng)頁是否存在訪問異常;
若存在,則根據(jù)所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站在預(yù)置對比庫中的對比頁的網(wǎng)頁地址信息,爬取所述對比頁的第一頁面內(nèi)容信息,所述預(yù)置對比庫用于存儲各個網(wǎng)站設(shè)置的對比頁,所述對比頁中包含對比頁的網(wǎng)頁地址信息和對比頁的第二頁面內(nèi)容信息;
根據(jù)所述對比頁的頁面內(nèi)容信息的爬取結(jié)果,確定所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站是否禁用所述網(wǎng)絡(luò)爬蟲。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站在預(yù)置對比庫中的對比頁的網(wǎng)頁地址信息,爬取所述對比頁的第一頁面內(nèi)容信息包括:
根據(jù)所述當(dāng)前網(wǎng)頁的地址信息獲取對應(yīng)的網(wǎng)站;
查詢所述網(wǎng)站在預(yù)置對比庫中存儲的對比頁的網(wǎng)頁地址信息;
根據(jù)所述對比頁的網(wǎng)頁地址信息,爬取所述對比頁的第一頁面內(nèi)容信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷網(wǎng)絡(luò)爬蟲爬取的當(dāng)前網(wǎng)頁是否存在訪問異常包括:
爬取當(dāng)前網(wǎng)頁的頁面內(nèi)容信息,當(dāng)所述頁面內(nèi)容信息的數(shù)據(jù)量小于閾值時,確定所述當(dāng)前網(wǎng)頁存在訪問異常;
或者,獲取所述當(dāng)前網(wǎng)頁中包含的狀態(tài)碼,當(dāng)所述狀態(tài)碼存在于預(yù)置黑名單中時,確定所述當(dāng)前網(wǎng)頁存在訪問異常,其中,所述黑名單中包含有用于判斷網(wǎng)頁訪問異常的狀態(tài)碼。
4.根據(jù)權(quán)利要求1-3中任一項所述的方法,其特征在于,所述根據(jù)所述對比頁的頁面內(nèi)容信息的爬取結(jié)果,確定所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站是否禁用所述網(wǎng)絡(luò)爬蟲包括:
爬取對比頁的第一頁面內(nèi)容信息;
將所述第一頁面內(nèi)容信息與所述預(yù)置對比庫中對比頁的第二頁面內(nèi)容信息進(jìn)行比較;
若相同,則確定所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站未禁用所述網(wǎng)絡(luò)爬蟲;
若不同,則確定所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站禁用所述網(wǎng)絡(luò)爬蟲。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述判斷網(wǎng)絡(luò)爬蟲爬取的當(dāng)前網(wǎng)頁是否存在訪問異常之前,所述方法還包括:
接收含有優(yōu)先級標(biāo)識的檢索關(guān)鍵字,所述檢索關(guān)鍵字用于確定網(wǎng)站的對比頁;
根據(jù)優(yōu)先級標(biāo)識的順序確定含有所述檢索關(guān)鍵字的頁面為對比頁;
獲取所述對比頁的網(wǎng)址信息以及所述對比頁的第二頁面內(nèi)容信息,將所述對比頁的網(wǎng)址信息、所述對比頁的第二頁面內(nèi)容信息以及對應(yīng)的網(wǎng)站域名添加至所述預(yù)置對比庫。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
若確定所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站未禁用所述網(wǎng)絡(luò)爬蟲,則將所述當(dāng)前網(wǎng)頁添加入預(yù)置白名單;
若確定所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站禁用所述網(wǎng)絡(luò)爬蟲,則更換爬取策略,繼續(xù)爬取所述當(dāng)前網(wǎng)頁。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在所述網(wǎng)絡(luò)爬蟲爬取的當(dāng)前網(wǎng)頁存在訪問異常之后,所述方法還包括:
查詢所述當(dāng)前網(wǎng)頁是否存在于預(yù)置白名單中;
若不存在,則根據(jù)所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站在預(yù)置對比庫中的對比頁的網(wǎng)頁地址信息,爬取所述對比頁的第一頁面內(nèi)容信息。
8.一種檢測網(wǎng)絡(luò)爬蟲運行狀態(tài)的裝置,其特征在于,所述裝置包括:
判斷單元,用于判斷網(wǎng)絡(luò)爬蟲爬取的當(dāng)前網(wǎng)頁是否存在訪問異常;
爬取單元,用于若所述判斷單元判斷存在訪問異常 ,則根據(jù)所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站在預(yù)置對比庫中的對比頁的網(wǎng)頁地址信息,爬取所述對比頁的第一頁面內(nèi)容信息,所述預(yù)置對比庫用于存儲各個網(wǎng)站設(shè)置的對比頁,所述對比頁中包含對比頁的網(wǎng)頁地址信息和對比頁的第二頁面內(nèi)容信息;
確定單元,用于根據(jù)所述爬取單元爬取的對比頁的頁面內(nèi)容信息的爬取結(jié)果,確定所述當(dāng)前網(wǎng)頁對應(yīng)的網(wǎng)站是否禁用所述網(wǎng)絡(luò)爬蟲。
9.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)包括存儲的程序,其中,在所述程序運行時控制所述存儲介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1-7中任一項所述的檢測網(wǎng)絡(luò)爬蟲運行狀態(tài)的方法。
10.一種處理器,其特征在于,所述處理器用于運行程序,其中,所述程序運行時執(zhí)行如權(quán)利要求1-7中任一項所述的檢測網(wǎng)絡(luò)爬蟲運行狀態(tài)的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京國雙科技有限公司,未經(jīng)北京國雙科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710612520.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





