[發(fā)明專利]一種分布式垂直業(yè)務搜索爬蟲框架在審
| 申請?zhí)枺?/td> | 201811208977.7 | 申請日: | 2018-10-17 |
| 公開(公告)號: | CN109063216A | 公開(公告)日: | 2018-12-21 |
| 發(fā)明(設計)人: | 鄧熾成 | 申請(專利權)人: | 珠海市智圖數(shù)研信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 盧澤明 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 業(yè)務搜索 垂直 消息隊列 中心庫 網(wǎng)絡計算機終端 多臺計算機 動態(tài)調(diào)度 分布形式 技術手段 目標頁面 網(wǎng)絡計算 網(wǎng)絡爬蟲 資源消耗 低成本 框架本 無間斷 監(jiān)聽 編排 復制 調(diào)度 匯聚 配置 網(wǎng)絡 | ||
本發(fā)明公開了一種分布式垂直業(yè)務搜索爬蟲框架,具體步驟如下:步驟一:采用爬蟲靜態(tài)分布形式將同一目標的爬蟲按照配置,復制到不同的網(wǎng)絡計算機上,然后采用不同IP資源發(fā)出爬取請求;步驟二:目標頁面URL通過消息隊列管道匯聚到中心庫;步驟三:中心庫負載程序?qū)RL進行調(diào)度,并且通過消息隊列管道推送到多個網(wǎng)絡計算機終端,由監(jiān)聽爬蟲進行動態(tài)調(diào)度執(zhí)行URL下載任務。本發(fā)明利用分布式垂直業(yè)務搜索爬蟲,使用更多的IP資源來合理編排任務,將爬取任務分散到網(wǎng)絡多臺計算機進行,對高資源消耗的網(wǎng)絡爬蟲來說是提供了一種低成本的解決方案,因此分布式爬蟲是在垂直業(yè)務搜索中,實現(xiàn)持續(xù)無間斷爬取的很好的技術手段。
技術領域
本發(fā)明涉及搜索爬蟲框架技術領域,特別涉及一種分布式垂直業(yè)務搜索爬蟲框架。
背景技術
大部分網(wǎng)站會針對網(wǎng)絡爬蟲的行為有一定的預防策略,防止因為過于頻繁消耗過多的網(wǎng)絡資源和I/O資源,造成網(wǎng)站性能的下降。為了適用反爬蟲的規(guī)則,爬蟲需要更多的IP資源來合理編排任務,將爬取任務分散到網(wǎng)絡多臺計算機進行。目前公有云越來越普遍,互聯(lián)網(wǎng)資源成本越來越低,對高資源消耗的網(wǎng)絡爬蟲來說是提供了一種低成本的解決方案,因此分布式爬蟲是在垂直業(yè)務搜索中,實現(xiàn)持續(xù)無間斷爬取的很好的技術手段。
因此,發(fā)明一種分布式垂直業(yè)務搜索爬蟲框架來解決上述問題很有必要。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種分布式垂直業(yè)務搜索爬蟲框架,通過采用爬蟲靜態(tài)分布形式將同一目標的爬蟲按照配置,復制到不同的網(wǎng)絡計算機上,采用不同IP資源發(fā)出爬取請求,目標頁面URL通過消息隊列管道匯聚到中心庫,中心庫負載程序?qū)RL通過消息隊列管道推送到網(wǎng)絡計算機終端,由監(jiān)聽爬蟲執(zhí)行URL下載任務,本發(fā)明利用分布式垂直業(yè)務搜索爬蟲,使用更多的IP資源來合理編排任務,將爬取任務分散到網(wǎng)絡多臺計算機進行,互聯(lián)網(wǎng)資源成本較低,對高資源消耗的網(wǎng)絡爬蟲來說是提供了一種低成本的解決方案,因此分布式爬蟲是在垂直業(yè)務搜索中,實現(xiàn)持續(xù)無間斷爬取的很好的技術手段,以解決上述背景技術中提出的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:一種分布式垂直業(yè)務搜索爬蟲框架,具體步驟如下:
步驟一:采用爬蟲靜態(tài)分布形式將同一目標的爬蟲按照配置,復制到不同的網(wǎng)絡計算機上,然后采用不同IP資源發(fā)出爬取請求;
步驟二:目標頁面URL通過消息隊列管道匯聚到中心庫;
步驟三:中心庫負載程序?qū)RL進行調(diào)度,并且通過消息隊列管道推送到多個網(wǎng)絡計算機終端,由監(jiān)聽爬蟲進行動態(tài)調(diào)度執(zhí)行URL下載任務;
步驟四:當URL沒有被拒絕訪問時,進行索引,遞給中心庫,中心庫進行標記該URL已被執(zhí)行任務;
步驟五:當有網(wǎng)絡計算機終端不能執(zhí)行URL下載任務時,將該URL經(jīng)消息隊列管道反饋給中心庫,此時中心庫將此URL再次進行調(diào)度,重新回到消息隊列再次推送到其他的網(wǎng)絡計算機終端,再由監(jiān)聽爬蟲進行動態(tài)調(diào)度,執(zhí)行URL下載任務;
步驟六:當不能執(zhí)行URL下載任務的消息經(jīng)消息隊列管道反饋給中心庫時,同時將此URL以及對應的網(wǎng)絡計算機終端進行記錄保存,當下一次再次搜索此URL時,不調(diào)動此網(wǎng)絡計算機終端執(zhí)行URL下載任務。
優(yōu)選的,所述消息隊列由中心庫進行統(tǒng)一管理和調(diào)度,當網(wǎng)絡計算機爬蟲發(fā)現(xiàn)URL時通過消息隊列推送到中心庫中,中心庫通過去重判斷該URL有無被下載,有則丟棄,無則由中心庫把新URL加入到要爬取的消息隊列中供網(wǎng)絡計算機終端執(zhí)行URL下載任務,當網(wǎng)絡計算機終端執(zhí)行URL下載任務失敗時,該URL會重新返回到消息隊列中,由監(jiān)聽爬蟲進行動態(tài)調(diào)度再次下載,當網(wǎng)絡計算機終端執(zhí)行URL下載任務完成時,該URL會被中心庫記錄為爬取狀態(tài),避免重復爬取。
本發(fā)明的技術效果和優(yōu)點:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海市智圖數(shù)研信息技術有限公司,未經(jīng)珠海市智圖數(shù)研信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811208977.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





