[發明專利]分布式爬蟲系統架構、爬取數據的方法和計算機設備在審
| 申請號: | 201910601110.6 | 申請日: | 2019-07-04 |
| 公開(公告)號: | CN110457556A | 公開(公告)日: | 2019-11-15 |
| 發明(設計)人: | 車馳;李鋼;權佳成;譚瑞;張瑜 | 申請(專利權)人: | 重慶金融資產交易所有限責任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/953 |
| 代理公司: | 44343 深圳市明日今典知識產權代理事務所(普通合伙) | 代理人: | 王杰輝<國際申請>=<國際公布>=<進入 |
| 地址: | 400010重慶市渝中*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 爬蟲系統 計算機設備 服務模塊 爬蟲模塊 爬蟲數據 架構 任務發布模塊 存儲模塊 架構設計 開發語言 擴展能力 目標網站 能力需求 模塊化 預設 調用 封裝 申請 工作量 服務 存儲 開發 | ||
本申請揭示了一種分布式爬蟲系統架構、爬取數據的方法和計算機設備,其中方法包括:利用任務發布模塊獲取爬蟲任務,并將爬蟲任務發送給爬蟲模塊;爬蟲模塊獲取到爬蟲任務后,到爬蟲服務模塊中調用與爬取要求對應的目標爬蟲服務,并利用目標爬蟲服務,到目標網站上爬取原始爬蟲數據;將爬取的原始爬蟲數據存儲到預設的第一存儲模塊。本申請的分布式爬蟲系統架構、分布式爬蟲爬取數據的方法和計算機設備等,設置爬蟲服務模塊,將整個爬蟲系統的底層需求進行封裝,進行模塊化,服務化的處理,減少開發人員的工作量,以及不限制開發人員的開發語言,降低能力需求;通過架構設計提升爬蟲系統的穩定性和擴展能力。
技術領域
本申請涉及到數據采集領域,特別是涉及到一種分布式爬蟲系統架構、爬取數據的方法和計算機設備。
背景技術
目前的爬蟲平臺設計主要針對單一的業務場景進行定制開發,不同的爬蟲之間總是需要獨立的編寫需求的模塊,這就導致了大多數的爬蟲系統沒有考慮到整個系統的穩定性和通用性,開發人員的開發維護效率低。
發明內容
本申請的主要目的為提供一種分布式爬蟲系統架構、爬取數據的方法和計算機設備,旨在解決現有技術中分布式爬蟲系統礦建穩定性和通用性差,開發人員的開發維護效率低的問題。
為了實現上述發明目的,本申請提出一種分布式爬蟲系統架構,該架構的設計使用HTTP服務注冊的方式,將不同的模塊進行隔離,不同的模塊之間使用消息隊列的方式進行相互的訪問,所述架構包括:
任務發布模塊,用于發布爬蟲任務;
爬蟲服務模塊,用于存儲以服務形式存在的不同的爬蟲服務,不同的所述爬蟲服務完成不同的爬蟲任務;
爬蟲模塊,用于接收所述任務發布模塊發布的爬蟲任務,并依據所述爬蟲任務,到所述爬蟲服務模塊中調用與所述爬蟲任務對應的爬蟲服務,利用所述爬蟲服務到目標網站進行爬取動作,得到對應的原始爬蟲數據;
第一數據存儲模塊,用于存儲所述原始爬蟲數據;
數據清洗模塊,用于清洗所述第一數據存儲模塊中的原始爬蟲數據,得到篩選后的第一爬蟲數據;
第二數據存儲模塊,用于存儲所述第一爬蟲數據;
后臺管理模塊,用于形成可視化界面,在所述可視化界面上實現人機交互;
日志及錯誤處理模塊,用于獲取所述系統架構中其它模塊產生的日志,然后獲取所述日中的錯誤日志,根據預設規則處理所述錯誤日志對應的事件。
本申請還提供一種分布式爬蟲爬取數據的方法,基于上述的分布式爬蟲系統架構,包括:
利用所述任務發布模塊獲取爬蟲任務,并將所述爬蟲任務發送給所述爬蟲模塊,所述爬蟲任務包括目標網站和爬取要求;
所述爬蟲模塊獲取到所述爬蟲任務后,到所述爬蟲服務模塊中調用與所述爬取要求對應的目標爬蟲服務,并利用所述目標爬蟲服務,到所述目標網站上爬取原始爬蟲數據,其中,所述爬蟲服務模塊中封裝有至少一個以服務形式封裝的爬蟲服務;
將爬取的所述原始爬蟲數據存儲到預設的第一存儲模塊。
進一步地,所述將所述爬蟲任務發送給所述爬蟲模塊的步驟,包括:
所述任務發布模塊以消息隊列的形式發送所述爬蟲任務給所述爬蟲模塊。
進一步地,所述將爬取的所述原始爬蟲數據存儲到預設的第一存儲模塊的步驟之后,所述方法包括:
利用數據清洗模塊對所述第一存儲模塊中的原始爬蟲數據進行清洗,得到清洗后的第一爬蟲數據,并將所述第一爬蟲數據存儲到預設的第二存儲模塊。
進一步地,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶金融資產交易所有限責任公司,未經重慶金融資產交易所有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910601110.6/2.html,轉載請聲明來源鉆瓜專利網。





