[發明專利]一種可擴展型分布式熱拔插部署網絡爬蟲服務模型及其控制方法在審
| 申請號: | 202110604575.4 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113312216A | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 鄭炎;陳耿生;薩冰珍;劉泳 | 申請(專利權)人: | 中電福富信息科技有限公司 |
| 主分類號: | G06F11/20 | 分類號: | G06F11/20;G06F16/951 |
| 代理公司: | 福州君誠知識產權代理有限公司 35211 | 代理人: | 彭東 |
| 地址: | 350000 福建省福州*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 擴展 分布式 熱拔插 部署 網絡 爬蟲 服務 模型 及其 控制 方法 | ||
本發明公開一種可擴展型分布式熱拔插部署網絡爬蟲服務模型及其控制方法,模型包括主控服務器以及至少一臺熱備主控服務器,主控服務器分別連接任務下發中心和爬蟲采集服務集群,任務下發中心用于發布采集任務至當前主控服務器;主控服務用于采集任務下發、動態調整爬蟲采集服務集群的負載策略以及同步信息至熱備主控服務器;熱備主控服務器在主控服務宕機時接替主控服務器以負責采集任務下發、動態調整爬蟲采集服務集群的負載策略以及同步信息。本發明比起一般的分布式爬蟲可以動態增減爬蟲節點而不需要重啟系統,同時每個爬蟲節點互為熱備,主控也有對應的熱備服務,所以任何一個設備出現故障,對這個系統的穩定性沒有影響。
技術領域
本發明涉及網絡信息技術領域,尤其涉及一種可擴展型分布式熱拔插部署網絡爬蟲服務模型及其控制方法。
背景技術
目前市面上的網絡爬蟲主要分為兩種:1.單機部署模式,這種也是最簡單的網絡爬蟲模式,以單機的形式開啟多個線程來模擬Http的請求以獲取應答內容從而實現對網站內容的爬取,優點是部署簡單,開發成本低,缺點也很明顯,面對互聯網海量的信息,爬取的性能就顯得力不從心,單機的機制意味著爬蟲的主要瓶頸在于網絡的吞吐性能。2.分布式部署方案,也就是在單機模式的實現基礎上由主控服務負責將要爬取的網站發送給各個爬蟲節點,爬蟲節點將爬取后的結果上報給主控服務,由主控服務負責持久化處理。這種模式彌補了單機模式的性能瓶頸。但是由于這種模式需要實現配置好一臺的主控服務與N臺爬蟲節點,也就是說需要在部署的前期就要設計好網絡拓撲和對服務器的規劃。如果主控服務出現宕機,那么爬蟲系統就會崩盤。如果是某臺爬蟲節點出現宕機,那就會使得后續原本應該交于該節點的任務就無法送達爬蟲節點。
發明內容
本發明的目的在于提供一種可擴展型分布式熱拔插部署網絡爬蟲服務模型及其控制方法,通過一致性Hash算法來動態增減節點,以心跳來實現網絡拓撲變化的實時變更。
本發明采用的技術方案是:
一種可擴展型分布式熱拔插部署網絡爬蟲服務模型,其包括主控服務器以及至少一臺熱備主控服務器,主控服務器分別連接任務下發中心和爬蟲采集服務集群,任務下發中心用于發布采集任務至當前主控服務器;主控服務用于采集任務下發、動態調整爬蟲采集服務集群的負載策略以及同步信息至熱備主控服務器;熱備主控服務器在主控服務宕機時接替主控服務器以負責采集任務下發、動態調整爬蟲采集服務集群的負載策略以及同步信息。
進一步地,作為一種較優實施方式,爬蟲采集服務集群由若干爬蟲節點組成。
進一步地,作為一種較優實施方式,爬蟲節點與主控服務器之間通過心跳來交互信息,熱備主控服務器與主控服務器之間通過心跳來交互信息。
進一步地,作為一種較優實施方式,增加或減少熱備主控服務器時,熱備主控服務器將發送心跳于主控服務,再由主控服務通過心跳Ack將熱備信息發送給各個爬蟲節點;同時由主控服務器將信息同步給熱備主控服務器。
一種可擴展型分布式熱拔插部署網絡爬蟲服務模型的控制方法,其包括以下步驟;
步驟1,任務下發中心下發采集任務至主控服務器,
步驟2,主控服務器根據采集任務需求確定任務負載,并將采集任務下發至爬蟲采集服務集群中選定的爬蟲節點;
步驟3,選定的爬蟲節點接收并執行采集任務,同時返回接收任務響應至主控服務器;
步驟4,爬蟲采集服務集群的所有爬蟲節點周期性向主控服務器通知爬蟲節點的存活信息;
步驟5,主控服務器更新對應爬蟲節點的存活信息,并同步爬蟲節點的存活消息至熱備主控服務器的同時向對應的爬蟲節點返回響應信息;
步驟6,對應的爬蟲節點檢查是否在指定時間內收到主控服務器的返回響應信息;是則,保持當前主控服務器不變;否則,判斷當前主控服務器宕機同時將后續請求發送至熱備主控服務器;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電福富信息科技有限公司,未經中電福富信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110604575.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據中心機房環境監控系統
- 下一篇:生物芯片雜交生化反應器





