[發明專利]分布式爬蟲系統中任務管理器的分配方法及系統在審
| 申請號: | 201711006401.8 | 申請日: | 2017-10-25 |
| 公開(公告)號: | CN107766522A | 公開(公告)日: | 2018-03-06 |
| 發明(設計)人: | 馬巖 | 申請(專利權)人: | 麥格創科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50 |
| 代理公司: | 深圳市科冠知識產權代理有限公司44355 | 代理人: | 王海駿 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 爬蟲 系統 任務 管理器 分配 方法 | ||
技術領域
本發明涉及數據處理領域,尤其涉及一種分布式爬蟲系統中任務管理器的分配方法及系統。
背景技術
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
網絡爬蟲實際是一種網絡信息抓取的應用程序,現有的網絡爬蟲抓取數據量大,任務的分配的任務管理器為隨機分配的,其可能影響任務分配的效率,影響爬蟲的效率。
發明內容
本申請提供一種分布式爬蟲系統中任務管理器的分配方法。其解決現有技術的技術方案效率低的缺點。
一方面,提供一種分布式爬蟲任務分配方法,所述方法包括如下步驟:
分布式設備接收或發起分配消息,所述分配消息用于從分布式爬蟲系統中分配出任務管理器;分布式設備將N個數據包依次發送給分布式設備的其他M個設備;分布式設備統計M個設備返回的N個數據包的M個時延和,求該M個時延和的平均值;分布式設備接收其他M個設備發送的M個分配消息得到M個時延和平均值,該分配消息包含本機的時延和平均值;按M個時延和平均值倒序向M個設備發送所述分配消息。
可選的,所述方法還包括:
分布式設備獲取歷史分享的數據包的大小;提取歷史數據包的大小區間,將該大小區間劃分成N個子區間,分布式設備虛擬N個數據包,其中N個數據包中的第M個數據包的大小為N個區間中第M個子區間的中值,分布式設備將N個數據包依次發送給M個其他分布式設備,統計其他M個分布式設備中每個接入點的N個數據包的時延和,得到M個時延和。
可選的,所述方法還包括:
時延=tACK(1a)-t1a;其中,tACK(1a)為第一設備返回數據包A的確認消息的接收時間,t1a為數據包A向第一設備的發送時間。
第二方面,提供一種分布式爬蟲任務分配系統,所述系統包括:多個分布式設備,所述多個分布式設備包括第一分布式設備和其他N個分布式設備;
第一分布式設備,用于接收或發起分配消息,所述分配消息用于從分布式爬蟲系統中分配出任務管理器;將N個數據包依次發送給分布式設備的其他M個設備;統計M個設備返回的N個數據包的M個時延和,求該M個時延和的平均值;接收其他M個設備發送的M個分配消息得到M個時延和平均值,該分配消息包含本機的時延和平均值;按M個時延和平均值倒序向M個設備發送所述分配消息;
其他N個分布式設備,用于獲取本地的時延和,將該本地時延和發送給第一分布式設備。
可選的,所述分布式設備,還用于獲取歷史分享的數據包的大小;提取歷史數據包的大小區間,將該大小區間劃分成N個子區間,分布式設備虛擬N個數據包,其中N個數據包中的第M個數據包的大小為N個區間中第M個子區間的中值,分布式設備將N個數據包依次發送給M個其他分布式設備,統計其他M個分布式設備中每個接入點的N個數據包的時延和,得到M個時延和。
可選的,所述分布式設備,還用于時延=tACK(1a)-t1a;其中,tACK(1a)為第一設備返回數據包A的確認消息的接收時間,t1a為數據包A向第一設備的發送時間。
第三方面,提供一種分布式設備,包括:處理器、無線收發器、存儲器和總線,所述處理器、無線收發器、存儲器通過總線連接,
所述無線收發器,用于接收或發起分配消息,所述分配消息用于從分布式爬蟲系統中分配出任務管理器;
所述處理器,用于將N個數據包依次發送給分布式設備的其他M個設備;統計M個設備返回的N個數據包的M個時延和,求該M個時延和的平均值;接收其他M個設備發送的M個分配消息得到M個時延和平均值,該分配消息包含本機的時延和平均值;按M個時延和平均值倒序向M個設備發送所述分配消息。
可選的,所述處理器,用于獲取歷史分享的數據包的大小;提取歷史數據包的大小區間,將該大小區間劃分成N個子區間,分布式設備虛擬N個數據包,其中N個數據包中的第M個數據包的大小為N個區間中第M個子區間的中值,分布式設備將N個數據包依次發送給M個其他分布式設備,統計其他M個分布式設備中每個接入點的N個數據包的時延和,得到M個時延和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于麥格創科技(深圳)有限公司,未經麥格創科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711006401.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型轉動接料蘇子脫殼裝置
- 下一篇:一種轉動接料蘇子脫殼裝置





