[發(fā)明專利]基于加權(quán)輪叫算法的分布式爬蟲任務調(diào)度方法有效
| 申請?zhí)枺?/td> | 201410073829.4 | 申請日: | 2014-03-03 |
| 公開(公告)號: | CN103870329B | 公開(公告)日: | 2017-01-18 |
| 發(fā)明(設計)人: | 蔣昌俊;陳閎中;閆春鋼;丁志軍;王鵬偉;孫海春;鄧曉棟;葛大劼 | 申請(專利權(quán))人: | 同濟大學 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50 |
| 代理公司: | 上海天協(xié)和誠知識產(chǎn)權(quán)代理事務所31216 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 加權(quán) 算法 分布式 爬蟲 任務 調(diào)度 方法 | ||
1.一種基于加權(quán)輪叫算法的分布式爬蟲任務調(diào)度方法,其特征在于,依次按照如下步驟實施:
1)根據(jù)規(guī)模不同,本發(fā)明將網(wǎng)絡爬蟲分為單機多線程、同構(gòu)集中式、異構(gòu)集中式、小型分布式和大型分布式五類爬蟲,針對小型分布式的爬蟲任務調(diào)度,小型分布式爬蟲是指各個節(jié)點是分布式部署,部署在一個小的物理區(qū)域之中;
2)主從式架構(gòu)部署,即一個主控節(jié)點和若干個分布式部署并且能和主控節(jié)點互通的爬蟲節(jié)點,保證所有爬蟲節(jié)點能夠連至互聯(lián)網(wǎng);主控節(jié)點負責爬蟲任務的調(diào)度工作,即一個待爬取的URL該分配給哪一個爬蟲節(jié)點完成,以及去重工作,即將一個爬蟲節(jié)點返回的一條URL得到的外鏈去重后當中新的待爬取的URL;爬蟲節(jié)點則負責具體的爬蟲工作,對每一條主控節(jié)點分配給它的URL去互聯(lián)網(wǎng)上爬取它的整個HTML,并解析出這個頁面中包含的外鏈,將這些信息返回給主控節(jié)點;
3)當爬蟲節(jié)點第一次連接到主控節(jié)點時,主控節(jié)點給予它一個經(jīng)驗值作為初始權(quán)值;
4)主控節(jié)點根據(jù)基于加權(quán)輪叫的調(diào)度算法,不斷選擇出一個爬蟲節(jié)點,將一個待爬取的URL任務分配給它;該調(diào)度算法,即設置一個當前調(diào)度權(quán)值,每當它減為非正數(shù)時重新初始化為當前所有節(jié)點權(quán)值的最大值,然后對每個節(jié)點依次詢問,看其權(quán)值是否不小于當前調(diào)度權(quán)值,若是則得到調(diào)度,當所有節(jié)點詢問完畢后,當前調(diào)度權(quán)值自減一個步長,再開始對每個節(jié)點依次詢問,如此不斷往復;而本發(fā)明提出的調(diào)度算法則根據(jù)本方法設定的權(quán)值計算方法和大量實驗將其步長設定為4;
5)每當爬蟲節(jié)點爬取完一個URL任務時,將結(jié)果返回給主控節(jié)點,主控節(jié)點根據(jù)本發(fā)明提出的根據(jù)最近任務完成時間和未完成的任務數(shù)的權(quán)值計算方法更新該爬蟲節(jié)點的權(quán)值;
6)當一個爬蟲節(jié)點的權(quán)值隨著任務數(shù)的增加降為零時,主控節(jié)點將不再分配給其任務,直到它的權(quán)值重新恢復為正數(shù)時,才會重新得到分配;
7)這樣主控節(jié)點不斷將URL分配給爬蟲節(jié)點,爬蟲節(jié)點則不斷將URL爬取得到其HTML和外鏈返回給主控節(jié)點,主控節(jié)點將外鏈去重后再重新分配出去;根據(jù)互聯(lián)網(wǎng)的實際情況,這樣整個系統(tǒng)就會永無止境的運行下去,不斷爬取得到新的網(wǎng)頁,直至人工根據(jù)實際情況手動停止;
8)擁有錯誤恢復機制,主控節(jié)點可以檢測到爬蟲節(jié)點的異常情況,并將其權(quán)值置零。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟大學,未經(jīng)同濟大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410073829.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:用于太陽能電池的銦摻雜硫化鉛量子點敏化劑及制備方法
- 下一篇:耐高溫高壓電容





