[發明專利]一種爬蟲集群監控方法、裝置、存儲介質及計算機設備在審
| 申請號: | 202010713832.3 | 申請日: | 2020-07-22 |
| 公開(公告)號: | CN112035721A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 徐志威 | 申請(專利權)人: | 大箴(杭州)科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F11/30;G06F11/32 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威;賈依嬌 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 爬蟲 集群 監控 方法 裝置 存儲 介質 計算機 設備 | ||
本發明公開了一種爬蟲集群監控方法、裝置、存儲介質及計算機設備,涉及計算機技術領域,主要目的在于解決爬蟲集群監控過程中主節點無法對子節點返回的結果信息進行監控,導致爬蟲集群監控效率較低,且浪費大量時間與人力成本的問題。方法包括:獲取子節點發送的結果信息,結果信息中攜帶有身份標識和節點狀態標識;利用身份標識在本地配置文件中查找相應的結果信息類型以及節點狀態類型,配置文件中預先配置有與各子節點相關聯的結果信息類型和節點狀態類型;依據子節點對應的結果信息和節點狀態標識,以及所述結果信息類型和節點狀態類型,判斷子節點是否為異常子節點;若是,則對異常子節點進行刪除和重建處理。本發明適用于爬蟲集群的監控。
技術領域
本發明涉及計算機技術領域,特別是涉及一種爬蟲集群監控方法、裝置、存儲介質及計算機設備。
背景技術
爬蟲裝置的使用需部署至子節點中,即爬蟲集群。子節點在執行信息爬取后再將結果信息返回至主節點,為了保證子節點的可用性,通常通過多節點集群監控的方式,即多個節點組成一個集群,向每個節點執行監控操作,收集結果分析節點狀態。而對于爬蟲裝置,節點的運行狀態正常并不能表示其爬蟲正常,還需對其輸出的結果信息進行檢測。然而,傳統的集群監控無法對此進行監控處理,對于接收子節點推送結果的主節點來說,同時核對結果信息的完整性并對子節點進行檢測維護將是一大難題,日常需要人員投入輔助監控和操作,導致爬蟲集群監控效率較低,且浪費大量時間與人力成本。
發明內容
有鑒于此,本發明提供一種爬蟲集群監控方法、裝置、存儲介質及計算機設備,主要目的在于能夠解決爬蟲集群監控過程中主節點無法對子節點返回的結果信息進行監控,導致爬蟲集群監控效率較低,且浪費大量時間與人力成本的問題。
依據本發明一個方面,提供了一種爬蟲集群監控方法,包括:
獲取子節點發送的結果信息,其中,所述結果信息中攜帶有所述子節點對應的身份標識和節點狀態標識;
利用所述身份標識在本地配置文件中匹配相應的結果信息類型以及節點狀態類型,其中,所述配置文件中預先配置有與各子節點相關聯的結果信息類型和節點狀態類型;
依據匹配得到的所述結果信息類型和節點狀態類型,以及所述子節點發送的結果信息和節點狀態標識,判斷所述子節點是否為異常子節點;
若是,則對所述異常子節點進行刪除和重建處理。
進一步地,所述根據所述身份標識在本地配置文件中匹配預設的結果信息類型以及節點狀態類型,包括:
讀取本地配置文件;
根據所述身份標識在所述配置文件中匹配相應的子節點;
提取與所述子節點相關聯的結果信息類型以及節點狀態類型。
進一步地,所述依據匹配得到的所述結果信息類型和節點狀態類型,以及所述子節點發送的結果信息類型和節點狀態類型,判斷所述子節點是否為異常子節點,包括:
分別判斷所述結果信息與所述結果信息類型、所述節點狀態標識與所述節點狀態類型是否一致;
若所述結果信息與所述結果信息類型不一致,和/或所述節點狀態標識與節點狀態類型不一致,則將所述子節點確定為異常子節點。
進一步地,所述若是,則對所述異常子節點進行刪除和重建處理,包括:
提取所述異常子節點的路徑信息;
根據所述路徑信息,刪除目標位置的異常子節點;
在所述目標位置重新創建子節點;
根據所述重新創建的子節點對本地配置文件進行更新;
讀取所述更新后的配置文件,以將所述子節點添加至爬蟲集群監控中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大箴(杭州)科技有限公司,未經大箴(杭州)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010713832.3/2.html,轉載請聲明來源鉆瓜專利網。





