[發明專利]任務分配方法、裝置、服務器和存儲介質有效
| 申請號: | 201911115472.0 | 申請日: | 2019-11-14 |
| 公開(公告)號: | CN110866167B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 張昊 | 申請(專利權)人: | 北京知道創宇信息技術股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F9/50 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 張磊 |
| 地址: | 100000 北京市朝陽區阜*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 任務 分配 方法 裝置 服務器 存儲 介質 | ||
本申請實施例提供一種任務分配方法、裝置、服務器和存儲介質,該方法可應用于分布式爬蟲系統中的主節點,該任務分配方法包括:向從節點發送任務數量為第一數量的第一任務;接收從節點返回的第一數量的第一任務的任務執行結果;根據任務執行結果計算從節點當前的處理能力值;根據當前的處理能力值對從節點的任務數量進行更新,以在下一次發送任務時根據更新后的任務數量向從節點發送任務。以此能夠改善現有技術中爬蟲集群的處理效率低的問題。
技術領域
本申請涉及數據處理技術領域,具體而言,涉及一種任務分配方法、裝置、服務器和存儲介質。
背景技術
隨著大數據、移動互聯網的飛速發展,網絡中的數據量也在飛速增長。若能將網絡上公開的非結構數據整合抓取下來,并對其進行一定的分析就能得到一些有價值的數據,以此不僅可以更加了解當前網絡中的情況,也可以為企業的業務發展方向提供量化的參考。但是由于機器性能問題、網絡問題等限制導致爬蟲服務器若想要抓取大量數據就需要做成集群的形式,單臺機器的爬蟲工作能力非常有限。
而在爬蟲集群中如何分配任務就成為了需要解決的問題,現有的一種做法是將總任務盡可能的細化為多個極小的任務,然后由master(主節點)將各個細化的任務逐個分配給slave(從節點),并等待接收slave的結果,最后由master對所有節點的結果進行匯總。
但是這種做法可能會讓master長時間等待部分節點的結果,爬蟲集群的處理效率低。
發明內容
本申請實施例的目的在于提供一種任務分配方法、裝置、服務器和存儲介質,用以改善現有技術中爬蟲集群的處理效率低的問題。
第一方面,實施例提供一種任務分配方法,應用于分布式爬蟲系統中的主節點,所述方法包括:
向從節點發送任務數量為第一數量的第一任務;
接收所述從節點返回的所述第一數量的第一任務的任務執行結果;
根據所述任務執行結果計算所述從節點當前的處理能力值;
根據所述當前的處理能力值對所述從節點的任務數量進行更新,以在下一次發送任務時根據更新后的任務數量向所述從節點發送任務。
在上述方法中,主節點先向從節點分配一批任務數量為第一數量的任務,然后計算該從節點執行這批任務所對應的當前的處理能力值,從而根據當前的處理能力值對該從節點的任務數量進行更新,實現了動態的任務分配。上述方法能夠通過每次計算出的處理能力值動態分配爬蟲任務,盡可能讓從節點被分到的任務與其處理能力值是適配的,且動態分配爬蟲任務的方式還能夠提高帶寬利用率,提升整體爬蟲效率。
在可選的實施方式中,所述任務執行結果中包括所述從節點執行任務數量為所述第一數量的第一任務時的網絡參數,所述根據所述任務執行結果計算所述從節點當前的處理能力值,包括:
獲取所述從節點執行任務數量為所述第一數量的第一任務所用的任務耗時;
根據所述從節點的硬件配置信息、所述網絡參數以及所述任務耗時,計算所述從節點當前的處理能力值。
通過上述實現方式,在處理能力值的計算過程中,綜合考慮了從節點的固定參數與非固定參數,以此得到的處理能力值更為可靠。且計算處理能力值的各種參數是較為容易獲取的,計算方式易于實現。
在可選的實施方式中,所述第一數量是根據上一次計算得到的所述從節點的處理能力值確定的任務數量,所述根據所述當前的處理能力值對所述從節點的任務數量進行更新,包括:
將所述當前的處理能力值與上一次計算出的處理能力值進行比較;
在所述當前的處理能力值大于上一次計算出的處理能力值時,將所述第一數量增大第一預設數量,以得到更新后的任務數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知道創宇信息技術股份有限公司,未經北京知道創宇信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911115472.0/2.html,轉載請聲明來源鉆瓜專利網。





