[發明專利]一種負載均衡分布式的爬蟲方法、爬蟲系統有效
| 申請號: | 201710790708.5 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107562541B | 公開(公告)日: | 2020-08-11 |
| 發明(設計)人: | 曾偉英;霍智杰;徐國坤 | 申請(專利權)人: | 廣東科杰通信息科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F16/951 |
| 代理公司: | 佛山市禾才知識產權代理有限公司 44379 | 代理人: | 劉羽波 |
| 地址: | 528000 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 負載 均衡 分布式 爬蟲 方法 系統 | ||
1.一種負載均衡分布式的爬蟲方法,包括主服務器和多個與主服務器互通的爬蟲服務器,每個所述爬蟲服務器的下游設置多個爬蟲采集節點,其特征在于,包括系統分布式爬蟲負載均衡過程:
步驟A:所述主服務器將一個爬蟲任務分解成請求頁面任務和分析頁面任務,請求頁面任務和分析頁面任務之間循環交替進行;
步驟B:所述主服務器把請求頁面任務和分析頁面任務分發給不同的所述爬蟲服務器,所述爬蟲服務器再把自身接收到的任務分派給各個所述爬蟲采集節點并對各個所述爬蟲采集節點的節點狀態信息進行監控;
步驟C:所述爬蟲服務器收集并反饋各個所述爬蟲采集節點的節點狀態信息到所述主服務器;
步驟D:所述主服務器接收并分析所述爬蟲服務器反饋的節點狀態信息;若分析到所述爬蟲采集節點的節點狀態信息為空載狀態,則所述主服務器調度任務給該爬蟲采集節點;
所述步驟D中所述主服務器分析調度方法包括:
首先,所述主服務器對接收到的多個所述節點狀態信息進行整理;
然后,所述主服務器通過整理后的所述節點狀態信息分析對應的爬蟲采集節點是否處于空閑狀態:
若不是則分析下一個所述節點狀態信息;
若是則進一步分析所述爬蟲采集節點原先負責的任務是請求頁面任務還是分析頁面任務:
若所述爬蟲采集節點原先負責請求頁面任務,則分配分析頁面任務給所述爬蟲采集節點;
若所述爬蟲采集節點原先負責分析頁面任務,則分配請求頁面任務給所述爬蟲采集節點;
還包括重復分配過程:
所述主服務器將同一個請求頁面任務或分析頁面任務分配給多個爬蟲服務器。
2.根據權利要求1所述的負載均衡分布式的爬蟲方法,其特征在于,所述步驟B中的爬蟲服務器監控方法包括:
首先,各個所述爬蟲采集節點執行被分派的任務,并發送自身的節點狀態信息到對應的所述爬蟲服務器;
然后,所述爬蟲服務器對接收到的所述節點狀態信息進行整理,并將整理后的所述節點狀態信息實時發送至所述主服務器。
3.根據權利要求1所述的負載均衡分布式的爬蟲方法,其特征在于,還包括控制爬蟲采集節點數量過程:
首先,所述主服務器對爬蟲任務的分配情況進行檢測;
若檢測到所有爬蟲任務均被分配,則進一步分析各個爬蟲采集節點的節點狀態信息:
若分析到存在若干個所述爬蟲采集節點處于空閑狀態或請求頁面任務狀態,則刪除這些處于空閑狀態或請求頁面任務狀態的爬蟲采集節點;
若檢測有若干個所述爬蟲任務未被分配,則進一步分析各個爬蟲采集節點的節點狀態信息,然后將未分配的爬蟲任務分析調度至處于空閑狀態的爬蟲采集節點;
若分析調度完后仍有若干個所述爬蟲任務未被分配,則增加爬蟲采集節點的數量直至所有爬蟲任務均被分配為止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東科杰通信息科技有限公司,未經廣東科杰通信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710790708.5/1.html,轉載請聲明來源鉆瓜專利網。





