[發明專利]分布式爬蟲系統中任務管理器的分配方法及系統在審
| 申請號: | 201711000607.X | 申請日: | 2017-10-24 |
| 公開(公告)號: | CN107800789A | 公開(公告)日: | 2018-03-13 |
| 發明(設計)人: | 馬巖 | 申請(專利權)人: | 麥格創科技(深圳)有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L12/24;G06F9/50 |
| 代理公司: | 深圳市科冠知識產權代理有限公司44355 | 代理人: | 王海駿 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 爬蟲 系統 任務 管理器 分配 方法 | ||
技術領域
本發明涉及數據處理領域,尤其涉及一種分布式爬蟲系統中任務管理器的分配方法及系統。
背景技術
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
網絡爬蟲實際是一種網絡信息抓取的應用程序,現有的網絡爬蟲抓取數據量大,任務的分配的任務管理器為隨機分配的,其可能影響任務分配的效率,影響爬蟲的效率。
發明內容
本申請提供一種分布式爬蟲系統中任務管理器的分配方法。其解決現有技術的技術方案效率低的缺點。
一方面,提供一種分布式爬蟲任務分配方法,所述方法包括如下步驟:
分布式設備接收或發起分配消息,所述分配消息用于從分布式爬蟲系統中分配出任務管理器;分布式設備將N個數據包依次發送給分布式設備的其他M個設備;分布式設備統計M個設備返回的N個數據包的M個時延和,求該M個時延和的平均值;分布式設備接收其他M個設備發送的M個分配消息得到M個時延和平均值,該分配消息包含本機的時延和平均值;分布式設備從M+1個時延和平均值中選擇時延和最小的設備作為任務管理器。
可選的,所述方法還包括:
將時延和次少的分布式設備確定為備用任務管理器,降低備用任務管理器的任務處理閾值。
可選的,所述方法還包括:
如任務管理器故障,啟動備用任務管理器作為分布式系統的任務管理器。
第二方面,提供一種分布式爬蟲任務分配系統,所述系統包括:多個分布式設備,所述多個分布式設備包括第一分布式設備和其他N個分布式設備;
第一分布式設備,用于接收或發起分配消息,所述分配消息用于從分布式爬蟲系統中分配出任務管理器;將N個數據包依次發送給分布式設備的其他M個設備;統計M個設備返回的N個數據包的M個時延和,求該M個時延和的平均值;接收其他M個設備發送的M個分配消息得到M個時延和平均值,該分配消息包含本機的時延和平均值;從M+1個時延和平均值中選擇時延和最小的設備作為任務管理器;
其他N個分布式設備,用于獲取本地的時延和,將該本地時延和加載在分配消息內發送給第一分布式設備。
可選的,所述分布式設備,還用于將時延和次少的分布式設備確定為備用任務管理器,降低備用任務管理器的任務處理閾值。
可選的,所述分布式設備,還用于如任務管理器故障,啟動備用任務管理器作為分布式系統的任務管理器。
第三方面,提供一種分布式設備,包括:處理器、無線收發器、存儲器和總線,所述處理器、無線收發器、存儲器通過總線連接,
所述無線收發器,用于接收或發起分配消息,所述分配消息用于從分布式爬蟲系統中分配出任務管理器;
所述處理器,用于將N個數據包依次發送給分布式設備的其他M個設備;統計M個設備返回的N個數據包的M個時延和,求該M個時延和的平均值;接收其他M個設備發送的M個分配消息得到M個時延和平均值,該分配消息包含本機的時延和平均值;從M+1個時延和平均值中選擇時延和最小的設備作為任務管理器。
可選的,所述處理器,用于時延和次少的分布式設備確定為備用任務管理器,降低備用任務管理器的任務處理閾值。
可選的,所述處理器,用于如任務管理器故障,啟動備用任務管理器作為分布式系統的任務管理器。
第四方面,提供一種計算機可讀存儲介質,其存儲用于電子數據交換的計算機程序,其中,所述計算機程序使得計算機執行第一方面提供的方法。
本發明提供的技術方案通過分配的方法從多個分布式設備中分配出參數最優的設備作為做任務管理器,在成為任務管理器的時候不處理爬蟲任務,將本地處理的爬蟲任務分配給其他的分布式設備,這樣實現對爬蟲任務的快速分配,提高效率。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明第一較佳實施方式提供的一種分布式爬蟲系統中任務管理器的分配方法的流程圖;
圖2為本發明第二較佳實施方式提供的一種分布式爬蟲系統中任務管理器的分配系統的結構圖。
圖3為本發明第二較佳實施方式提供的一種分布式設備的硬件結構圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于麥格創科技(深圳)有限公司,未經麥格創科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711000607.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于媒體網關的呼叫用戶區域定位方法
- 下一篇:一種統一數據服務系統及方法





