[發明專利]一種分布式垂直業務搜索爬蟲框架在審
| 申請號: | 201811208977.7 | 申請日: | 2018-10-17 |
| 公開(公告)號: | CN109063216A | 公開(公告)日: | 2018-12-21 |
| 發明(設計)人: | 鄧熾成 | 申請(專利權)人: | 珠海市智圖數研信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 盧澤明 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 業務搜索 垂直 消息隊列 中心庫 網絡計算機終端 多臺計算機 動態調度 分布形式 技術手段 目標頁面 網絡計算 網絡爬蟲 資源消耗 低成本 框架本 無間斷 監聽 編排 復制 調度 匯聚 配置 網絡 | ||
1.一種分布式垂直業務搜索爬蟲框架,其特征在于:具體步驟如下:
步驟一:采用爬蟲靜態分布形式將同一目標的爬蟲按照配置,復制到不同的網絡計算機上,然后采用不同IP資源發出爬取請求;
步驟二:目標頁面URL通過消息隊列管道匯聚到中心庫;
步驟三:中心庫負載程序將URL進行調度,并且通過消息隊列管道推送到多個網絡計算機終端,由監聽爬蟲進行動態調度執行URL下載任務;
步驟四:當URL沒有被拒絕訪問時,進行索引,遞給中心庫,中心庫進行標記該URL已被執行任務;
步驟五:當有網絡計算機終端不能執行URL下載任務時,將該URL經消息隊列管道反饋給中心庫,此時中心庫將此URL再次進行調度,重新回到消息隊列再次推送到其他的網絡計算機終端,再由監聽爬蟲進行動態調度,執行URL下載任務;
步驟六:當不能執行URL下載任務的消息經消息隊列管道反饋給中心庫時,同時將此URL以及對應的網絡計算機終端進行記錄保存,當下一次再次搜索此URL時,不調動此網絡計算機終端執行URL下載任務。
2.根據權利要求1所述的一種分布式垂直業務搜索爬蟲框架,其特征在于:所述消息隊列由中心庫進行統一管理和調度,當網絡計算機爬蟲發現URL時通過消息隊列推送到中心庫中,中心庫通過去重判斷該URL有無被下載,有則丟棄,無則由中心庫把新URL加入到要爬取的消息隊列中供網絡計算機終端執行URL下載任務,當網絡計算機終端執行URL下載任務失敗時,該URL會重新返回到消息隊列中,由監聽爬蟲進行動態調度再次下載,當網絡計算機終端執行URL下載任務完成時,該URL會被中心庫記錄為爬取狀態,避免重復爬取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海市智圖數研信息技術有限公司,未經珠海市智圖數研信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811208977.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據檢索方法及裝置
- 下一篇:電力營銷系統中的工單分類方法、裝置及其相關設備





