[發明專利]分布式網絡爬蟲抓取任務調度方法、調度端設備及抓取節點有效
| 申請號: | 201310491887.4 | 申請日: | 2013-10-18 |
| 公開(公告)號: | CN103559219A | 公開(公告)日: | 2014-02-05 |
| 發明(設計)人: | 周東 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/48 |
| 代理公司: | 北京邦信陽專利商標代理有限公司 11012 | 代理人: | 王昭林;金璽 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 網絡 爬蟲 抓取 任務 調度 方法 設備 節點 | ||
技術領域
本發明涉及網絡爬蟲相關技術領域,特別是分布式網絡爬蟲抓取任務調度方法、調度端設備及抓取節點。
背景技術
隨著互聯網信息的爆炸式增長,出現了越來越多以獲取大量信息為基礎的應用軟件,如搜索引擎、電子商務比價系統、輿情系統等。其中,網絡爬蟲是這些應用不可缺少的重要底層組成部分。而對于大數據量互聯網信息,單節點爬蟲的抓取無法滿足現實的需求,于是分布式網絡爬蟲應運而生。
分布式網絡爬蟲由多個爬蟲節點組成,按照通信方式不同可分為主從模式、自治模式與混合模式。其中主從模式方式,是指由一臺主機作為調度端負責所有運行網絡爬蟲的主機進行管理,爬蟲端(或者稱抓取節點)只需要從調度端那里接收抓取任務,并把新生成抓取任務提交給調度端再分配就可以了,在這個過程中不必與其他爬蟲通信,這種方式實現簡單明晰且有利于管理。
現有的主從模式分布式網絡爬蟲抓取任務調度方法主要集中在如下二種:
(1)按照時間與節點均等分配抓取任務。步驟S101,調度端首先從數據庫里讀取保存的初始種子,生成一定數量待抓取的抓取任務(其中一個抓取任務包含多個待抓取的種子),然后平均分配到每個爬蟲端。步驟S102,爬蟲端根據分配的抓取任務開始抓取網頁內容,同時將生成新待抓取的種子傳到調度端。步驟S103,調度端預估一個抓取任務分配間隔時間,按照間隔時間回到步驟S101,對待抓取的種子URL再次生成抓取任務,然后均等分配到每個抓取端。整個過程不斷循環執行。工作流程圖如圖1所示。
(2)按照抓取端抓取任務完成通知,批量分配抓取任務。步驟S201,調度端首次從數據庫里讀取保存的初始種子,生成一定數量待抓取的抓取任務,然后批量均等分配到每個爬蟲端。步驟S202,每個爬蟲端根據分配的抓取任務開始執行,同時將抓取的網頁內容生成的種子傳回調度端。步驟S203,一個爬蟲端節點完成調度端分配的全部抓取任務之后,將通知調度端抓取任務抓取完成。步驟S204,調度端接收到某個節點的抓取任務完成消息之后,再生成批量抓取任務分配給該節點。如此,不斷的循環性,直到所有的種子抓取完成。工作流程圖如圖2所示。
現有的兩種主從模式分布式抓取任務調度方法都能夠滿足分布式多節點協同方式抓取數據,適合多目標網站大數據量的抓取,但是這兩種方法都存在一定的缺陷。
對于第一種按照時間與節點均等分配抓取任務方法,該方法主要是根據經驗預估一個間隔時間,然后每經過這個間隔時間就生成確定數量的抓取任務,然后均等分配到每個節點。這個方法最大的優點就是邏輯簡單明晰,可以快速實現,但是存在如下缺點:第一,該方法中的抓取任務分配間隔時間與抓取端機器性能、網絡狀況及不同目標網站有很大關系,如果這個間隔時間較小,抓取的時候有很多抓取端還未完成抓取任務的同時,新的一批抓取任務又被分配過來,就造成排隊等待,降低抓取效率;如果這個間隔時間較大,抓取端完成了被分配的抓取任務,但是調度端抓取任務還沒有分配過來,就造成了資源浪費。同時每個爬蟲端,因網絡狀況、不同目標網站URL地址及機器性能不同,雖然首次分配時間點是一致的,但是抓取任務完成時間點也不盡相同。所以不管間隔時間設置多少,總會存在一部分低效并且浪費資源的爬蟲端節點。第二,該方法均等分配給每個節點的抓取任務數及每個抓取任務包含的種子數都是人工預估或根據經驗值來確定的,所以,同樣因無法充分考慮不同節點的網絡狀況、性能狀況,目標網站不同及抓取任務執行情況的不同,造成效率低,資源浪費的弊端。第三,調度端與爬蟲端的交互性不夠強,調度端只管按時分配抓取任務,爬蟲端如果在某個目標網站抓取出現諸如被封等異常,調度端無法及時感應到,最終導致整體數據抓取異常。所以,這種方法容錯性不強。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310491887.4/2.html,轉載請聲明來源鉆瓜專利網。





