[發明專利]一種網絡爬蟲系統及網絡爬蟲多任務執行和調度方法有效
| 申請號: | 201310610659.4 | 申請日: | 2013-11-26 |
| 公開(公告)號: | CN103605764B | 公開(公告)日: | 2017-10-24 |
| 發明(設計)人: | 宋軻;劉世才;毛海濤 | 申請(專利權)人: | TCL集團股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/46 |
| 代理公司: | 深圳市君勝知識產權代理事務所(普通合伙)44268 | 代理人: | 王永文,劉文求 |
| 地址: | 516001 廣東省惠州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 爬蟲 系統 任務 執行 調度 方法 | ||
技術領域
本發明涉及搜索引擎技術領域,尤其涉及一種網絡爬蟲系統及網絡爬蟲多任務執行和調度方法。
背景技術
隨著互聯網信息的爆炸式增長,傳統的網絡爬蟲采集數據的方式已經逐漸顯示出劣勢。傳統的網絡爬蟲采集數據時任務沒有細粒度的切分,耗時比較長,服務器CPU、內存和網絡帶寬的限制,數據爬取效率比較低下,而且容易出現單點故障。
因此,現有技術還有待于改進和發展。
發明內容
鑒于上述現有技術的不足,本發明的目的在于提供一種網絡爬蟲系統及網絡爬蟲多任務執行和調度方法,旨在解決目前網絡爬蟲采集數據方法效率低,耗時長的問題。
本發明的技術方案如下:
一種網絡爬蟲多任務執行和調度方法,其中,所述方法包括:
A、根據不同的內容和網站特點,對待爬取內容進行細粒度切分并根據切分后內容分別制作各爬蟲解析模板文件,設置網絡爬蟲分別結合各爬蟲解析模板文件形成用于執行爬取任務的各采集模塊;
B、多個節點服務器上分別部署所述網絡爬蟲,每個節點服務器分別設置有用于調度爬取任務的調度器;
C、所述調度器按照預先定義的調度策略調用關聯的采集模塊執行爬取任務進行數據采集。
所述的網絡爬蟲多任務執行和調度方法,其中,所述步驟A中根據不同的內容和網站特點,對待爬取內容進行細粒度切分具體為:
當所述待爬取內容包括多個類型相同的網站時,將多個類型相同的網站切分為單個網站;
或者,當單個網站包含多個內容不同的版塊時,將單個網站切分為不同的版塊;
或者,當單一板塊中包含多個頁面時,將單一板塊切分為多個頁面。
所述的網絡爬蟲多任務執行和調度方法,其中,所述切分后的內容之間無關聯性,所述各采集模塊分別對應關聯各爬取任務。
所述的網絡爬蟲多任務執行和調度方法,其中,所述各爬取任務之間無關聯性,每一爬取任務通過一獨立線程完成。
所述的網絡爬蟲多任務執行和調度方法,其中,所述預先定義的調度策略包括:
指定所述爬取任務在一固定的節點服務器上執行;
按照所述節點服務器節點等比原則在多個節點服務器中隨機分配爬取任務;
根據所述多個節點服務器當前的資源信息,優先選擇資源利用率低的節點服務器執行爬取任務。
所述的網絡爬蟲多任務執行和調度方法,其中,所述預先定義的調度策略具體設置為:
預先設置并存儲一信息列表,所述信息列表中存儲有所述節點服務器的IP、端口信息、爬取任務信息;讀取所述信息列表獲取爬取任務與節點服務器的對應關系,按照所述對應關系在相應的節點服務器上的執行爬取任務;
設置所述各節點服務器節點權重均為1,按照該等比原則在多個節點服務器中隨機分配爬取任務;
定期獲取所述多個節點服務器當前的CPU、內存資源信息,根據所獲取的資源信息優先選擇資源利用率低的節點服務器執行爬取任務,若存在資源利用率相同的節點服務器,則在該類節點服務器中隨機分配爬取任務。
所述的網絡爬蟲多任務執行和調度方法,其中,所述方法還包括:設置一用于保存爬取任務信息的數據庫,所述數據庫分別與所述多個節點服務器相連接,所述節點服務器上的各調度器通過各自獨立的線程定期檢查所述數據庫。
所述的網絡爬蟲多任務執行和調度方法,其中,所述步驟C中所述調度器按照預先定義的調度策略調用關聯的采集模塊之前還包括:
所述節點服務器第一次運行時,將所獲取的爬取任務信息初始化到所述數據庫。
所述的網絡爬蟲多任務執行和調度方法,其中,所述步驟C具體為:到爬取任務觸發時間時,按照預先定義的調度策略,所述服務器節點的調度器觸發自己的觸發器獲取數據庫鎖,獲取所述數據庫鎖的調度器調用關聯的采集模塊,網絡爬蟲加載所述爬蟲解析模板文件采集數據,同時更新爬取任務狀態并持久化到所述數據庫。
一種具有如上所述的網絡爬蟲多任務執行和調度的系統,其中,所述系統包括:
數據庫:分別所述節點服務器連接用于保存爬取任務信息;
節點服務器,用于執行網絡爬蟲爬取任務;所述節點服務器包括:
采集模塊,通過所述爬蟲解析模板文件形成用于具體執行爬取任務并進行數據采集;
調度器,用于按照預先定義的調度策略調用關聯的采集模塊執行爬取任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于TCL集團股份有限公司,未經TCL集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310610659.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于MEMS裝置的陽極接合
- 下一篇:具有氣體沖洗的激光諧振器的激光設備





