[發明專利]網絡爬蟲系統和基于網絡爬蟲系統的數據處理方法在審
| 申請號: | 201610798817.7 | 申請日: | 2016-08-31 |
| 公開(公告)號: | CN107784036A | 公開(公告)日: | 2018-03-09 |
| 發明(設計)人: | 崔志伸 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司11240 | 代理人: | 韓建偉,張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 爬蟲 系統 基于 數據處理 方法 | ||
技術領域
本發明涉及互聯網技術領域,具體而言,涉及一種網絡爬蟲系統和基于網絡爬蟲系統的數據處理方法。
背景技術
當前互聯網上擁有海量的信息,人們想要獲取這些信息,就需要用到網絡爬蟲。傳統的網絡爬蟲分為單機式以及集群式兩種。
單機爬蟲將爬取、處理、存儲等組件都部署在同一臺機器上,或者直接編寫在同一個程序中。這種方法的優點是易于部署、遷移、維護,成本低,不足點是性能依賴于單機性能,不易于擴展,遇到性能瓶頸時不能自動調整。
集群式爬蟲將所有的程序部署到一個機器集群中,集群中每臺機器可以單獨負責某一職責,也可以負責多個職責。這種方法的優點是性能可配置,能最大化利用系統資源,爬蟲的配置可以彈性伸縮,比單機版的效率要高。缺點是部署復雜,組建之間依賴關系緊密,架構封閉性強,不易于擴展以及維護,架設成本比較高。
針對現有技術中網絡爬蟲的多個組件部署在同一臺機器,或部署于多個機器但各個組件之間關系緊密,導致不易于拓展和維護的技術問題的,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種網絡爬蟲系統和基于網絡爬蟲系統的數據處理方法,以至少解決現有技術中網絡爬蟲的多個組件部署在同一臺機器,或部署于多個機器但各個組件之間關系緊密,導致不易于拓展和維護的技術問題。
根據本發明實施例的一個方面,提供了一種網絡爬蟲系統,包括:多個功能模塊,其中,每個功能模塊之間能夠相互進行通信;多個功能模塊中的任一功能模塊在接收到任務后,根據任務對應的流轉信息,確定執行任務的功能模塊以及任務的執行順序,并將任務發送給相應的功能模塊,以使功能模塊按照執行順序執行任務。
進一步地,多個功能模塊至少包括:網頁爬取模塊,用于根據有效鏈接地址,從互聯網上獲取有效鏈接地址對應的網頁內容;結果處理模塊,用于將任務的執行結果存儲于相應的存儲區域,并結束本次任務;或者,在任務的執行結果出現錯誤或接收到預設指令后,生成新的待執行任務。
進一步地,多個功能模塊還包括:鏈接抽取模塊,用于從網頁內容中抽取有效鏈接;和/或網頁處理模塊,用于對網頁內容進行第一預設處理,其中,第一預設處理包括:網頁篩選和/或鏈接篩選;和/或鏈接處理模塊,用于對有效鏈接進行第二預設處理,其中,第二預設處理包括:變形、刪除和/或添加。
進一步地,其特征在于,系統還包括:中央模塊,用于保存每個功能模塊的注冊地址,并且能夠與每個功能模塊進行通信。
進一步地,每個功能模塊包括:地址獲取單元,用于根據執行順序獲取目標功能模塊的注冊地址,目標功能模塊為接收當前功能模塊任務執行結果的功能模塊;接收單元,用于接收任務;處理單元,用于執行任務;發送單元,用于將任務的執行結果發送給目標功能模塊。
進一步地,每個功能模塊還包括:第一資源調整單元,用于在任務的等待時間超過預設時間的情況下,增加處理單元的數量;第二資源調整單元,用于在執行任務的資源消耗超過預設閾值的情況下,減少處理單元的數量。
根據本發明實施例的一個方面,提供了一種基于網絡爬蟲系統的數據處理方法,其中,網絡爬蟲系統為上述實施例中任意一種網絡爬蟲系統,方法包括:多個功能模塊中的任一功能模塊在接收到任務后,根據任務對應的流轉信息,確定執行任務的功能模塊以及任務的執行順序;將任務發送給相應的功能模塊,以使功能模塊按照執行順序執行任務。
進一步地,上述方法還包括:根據有效鏈接地址,從互聯網上獲取有效鏈接地址對應的網頁內容;將任務的執行結果存儲于相應的存儲區域,并結束本次任務;或者,在任務的執行結果出現錯誤或接收到預設指令后,生成新的待執行任務;和/或從網頁內容中抽取有效鏈接;和/或對網頁內容進行第一預設處理,其中,第一預設處理包括:網頁篩選和/或鏈接篩選;和/或對有效鏈接進行第二預設處理,其中,第二預設處理包括:變形、刪除和/或添加。
進一步地,將任務發送給相應的功能模塊,包括:獲取相應的功能模塊的注冊地址;根據注冊地址將所述任務發送給相應的功能模塊。
進一步地,在任務的等待時間超過預設時間的情況下,增加處理單元的數量;在執行任務的資源消耗超過預設閾值的情況下,減少處理單元的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610798817.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圈條器上清除短絨及粉塵的清除裝置
- 下一篇:一種用于紡紗抽絲機的裝置





