[發(fā)明專利]一種負(fù)載均衡分布式的爬蟲方法、爬蟲系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710790708.5 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107562541B | 公開(公告)日: | 2020-08-11 |
| 發(fā)明(設(shè)計)人: | 曾偉英;霍智杰;徐國坤 | 申請(專利權(quán))人: | 廣東科杰通信息科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F16/951 |
| 代理公司: | 佛山市禾才知識產(chǎn)權(quán)代理有限公司 44379 | 代理人: | 劉羽波 |
| 地址: | 528000 廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 負(fù)載 均衡 分布式 爬蟲 方法 系統(tǒng) | ||
本發(fā)明公開了一種負(fù)載均衡分布式的爬蟲方法、爬蟲系統(tǒng),包括主服務(wù)器和多個與主服務(wù)器互通的爬蟲服務(wù)器,每個所述爬蟲服務(wù)器的下游設(shè)置多個爬蟲采集節(jié)點,包括系統(tǒng)分布式爬蟲負(fù)載均衡過程:所述主服務(wù)器將一個爬蟲任務(wù)分解成請求頁面任務(wù)和分析頁面任務(wù),請求頁面任務(wù)和分析頁面任務(wù)之間循環(huán)交替進行。對各個所述爬蟲采集節(jié)點的節(jié)點狀態(tài)信息進行監(jiān)控和分析,從而所述主服務(wù)器可及時對所述爬蟲采集節(jié)點進行調(diào)配,避免出現(xiàn)部分爬蟲采集節(jié)點處于空載狀態(tài),提高爬蟲采集節(jié)點的整體利用率,減少資源浪費。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)搜索領(lǐng)域,尤其涉及一種負(fù)載均衡分布式的爬蟲方法、爬蟲系統(tǒng)。
背景技術(shù)
目前的分布式爬蟲中各個節(jié)點都只是負(fù)責(zé)單一的任務(wù)。當(dāng)某一個單一任務(wù)需要等待另一個任務(wù)完成的時候,負(fù)責(zé)處理這個單一任務(wù)的節(jié)點就可能出現(xiàn)空閑情況,造成大量的資源浪費,搜索速度降低。因此,必須想出一種方法解決這種資源浪費的瓶頸情況,讓分布式集群機器都處于一個合理利用資源的環(huán)境,讓各個機器節(jié)點都能各司其職。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種可及時對所述爬蟲采集節(jié)點進行調(diào)配,避免出現(xiàn)部分爬蟲采集節(jié)點處于空載狀態(tài),提高爬蟲采集節(jié)點的整體利用率,減少資源浪費的負(fù)載均衡分布式的爬蟲方法、爬蟲系統(tǒng)。
為達此目的,本發(fā)明采用以下技術(shù)方案:
一種負(fù)載均衡分布式的爬蟲方法,包括主服務(wù)器和多個與主服務(wù)器互通的爬蟲服務(wù)器,每個所述爬蟲服務(wù)器的下游設(shè)置多個爬蟲采集節(jié)點,包括系統(tǒng)分布式爬蟲負(fù)載均衡過程:
步驟A:所述主服務(wù)器將一個爬蟲任務(wù)分解成請求頁面任務(wù)和分析頁面任務(wù),請求頁面任務(wù)和分析頁面任務(wù)之間循環(huán)交替進行;
步驟B:所述主服務(wù)器把請求頁面任務(wù)和分析頁面任務(wù)分發(fā)給不同的所述爬蟲服務(wù)器,所述爬蟲服務(wù)器再把自身接收到的任務(wù)分派給各個所述爬蟲采集節(jié)點并對各個所述爬蟲采集節(jié)點的節(jié)點狀態(tài)信息進行監(jiān)控;
步驟C:所述爬蟲服務(wù)器收集并反饋各個所述爬蟲采集節(jié)點的節(jié)點狀態(tài)信息到所述主服務(wù)器;
步驟D:所述主服務(wù)器接收并分析所述爬蟲服務(wù)器反饋的節(jié)點狀態(tài)信息;若分析到所述爬蟲采集節(jié)點的節(jié)點狀態(tài)信息為空載狀態(tài),則所述主服務(wù)器調(diào)度任務(wù)給該爬蟲采集節(jié)點。
優(yōu)選地,所述步驟B中的爬蟲服務(wù)器監(jiān)控方法包括:
首先,各個所述爬蟲采集節(jié)點執(zhí)行被分派的任務(wù),并發(fā)送自身的節(jié)點狀態(tài)信息到對應(yīng)的所述爬蟲服務(wù)器;
然后,所述爬蟲服務(wù)器對接收到的所述節(jié)點狀態(tài)信息進行整理,并將整理后的所述節(jié)點狀態(tài)信息實時發(fā)送至所述主服務(wù)器。
優(yōu)選地,所述步驟D中所述主服務(wù)器分析調(diào)度方法包括:
首先,所述主服務(wù)器對接收到的多個所述節(jié)點狀態(tài)信息進行整理;
然后,所述主服務(wù)器通過整理后的所述節(jié)點狀態(tài)信息分析對應(yīng)的爬蟲采集節(jié)點是否處于空閑狀態(tài):
若不是則分析下一個所述節(jié)點狀態(tài)信息;
若是則進一步分析所述爬蟲采集節(jié)點原先負(fù)責(zé)的任務(wù)是請求頁面任務(wù)還是分析頁面任務(wù):
若所述爬蟲采集節(jié)點原先負(fù)責(zé)請求頁面任務(wù),則分配分析頁面任務(wù)給所述爬蟲采集節(jié)點;
若所述爬蟲采集節(jié)點原先負(fù)責(zé)分析頁面任務(wù),則分配請求頁面任務(wù)給所述爬蟲采集節(jié)點。
優(yōu)選地,還包括控制爬蟲采集節(jié)點數(shù)量過程:
首先,所述主服務(wù)器對爬蟲任務(wù)的分配情況進行檢測;
若檢測到所有爬蟲任務(wù)均被分配,則進一步分析各個爬蟲采集節(jié)點的節(jié)點狀態(tài)信息:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東科杰通信息科技有限公司,未經(jīng)廣東科杰通信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710790708.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





