[發(fā)明專利]一種分布式爬蟲的優(yōu)化方法在審

申請?zhí)枺?/td>	201611065662.2	申請日：	2016-11-28
公開（公告）號：	CN108121706A	公開（公告）日：	2018-06-05
發(fā)明（設計）人：	李磊;王偉;韓凱;朱立松	申請（專利權）人：	央視國際網絡無錫有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	常州佰業(yè)騰飛專利代理事務所(普通合伙) 32231	代理人：	王玉平
地址：	214000 江蘇省無錫市震***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	爬蟲去重網頁更新網頁內容解析器解析優(yōu)化計算機軟件工程網頁內容返回過濾器單點故障調度中心多次過濾工作效率流量節(jié)省爬蟲系統(tǒng) 數(shù)據(jù)倉庫系統(tǒng)整體節(jié)點數(shù) 集群鏈接算法網頁響應
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了計算機軟件工程技術領域的一種分布式爬蟲的優(yōu)化方法，所述該分布式爬蟲的優(yōu)化方法具體步驟如下：S1：調度中心下發(fā)任務；S2：爬蟲按URL抓取網頁內容；S3：解析器解析網頁內容；S4：如果網頁更新較多，則把網頁內容返回給數(shù)據(jù)倉庫；S5：解析器解析網頁中的鏈接，在本地先用布隆過濾器進行去重；S6：把通過了本地去重的URL進行Hash，本發(fā)明爬蟲系統(tǒng)在對網頁更新頻率的處理上，規(guī)避了復雜的算法，卻又能把這部分流量節(jié)省下來，可以極大提高爬蟲的工作效率，提高系統(tǒng)整體響應速度，在URL去重上，使用多次過濾結合去重集群的方式，在爬蟲節(jié)點數(shù)較多時，可以避免單個去重模塊的壓力和單點故障。

技術領域

本發(fā)明涉及計算機軟件工程技術領域，具體為一種分布式爬蟲的優(yōu)化方法。

背景技術

目前的中小型分布式網絡爬蟲框架和系統(tǒng)，包括開源的Nutch，有兩個問題必須解決：1、URL去重問題。目前普遍的最優(yōu)做法是在爬蟲調度中心使用布隆過濾器進行去重，磁盤空間和時間效率上可以得到較好保證；2、網頁更新抓取頻率問題。目前普遍的做法是在網頁分析入庫時根據(jù)網頁去重算法判斷網頁是否更新，然后結合更新歷史，再用算法估算下次什么時間再次抓取該網頁。

但是上述方案也有不足之處，有如下缺點：1、大量重復URL被解析出來反饋給調度中心，給調度中心URL去重模塊帶來了很大的壓力，而且大量重復的URL回傳花費了不少不必要的網絡流量，降低了爬蟲系統(tǒng)的工作效率；2、網頁被抓取后回傳給數(shù)據(jù)倉庫，然后在頁面解析時再進行分析，而此過程中大量沒有更新的網頁也在其中，給爬蟲系統(tǒng)浪費了很多時間和流量。為此，我們提出了一種分布式爬蟲的優(yōu)化方法投入使用，以解決上述問題。

發(fā)明內容

本發(fā)明的目的在于提供一種分布式爬蟲的優(yōu)化方法，以解決上述背景技術中提出的大量重復的URL回傳花費了不少不必要的網絡流量，降低了爬蟲系統(tǒng)的工作效率，網頁被抓取后回傳給數(shù)據(jù)倉庫，然后在頁面解析時再進行分析，而此過程中大量沒有更新的網頁也在其中，給爬蟲系統(tǒng)浪費了很多時間和流量的問題。

為實現(xiàn)上述目的，本發(fā)明提供如下技術方案：一種分布式爬蟲的優(yōu)化方法，所述該分布式爬蟲的優(yōu)化方法具體步驟如下：

S1：調度中心下發(fā)任務，一個任務中包括一個URL和此URL以前抓取結果的DNA特征；

S2：爬蟲按URL抓取網頁內容；

S3：解析器解析網頁內容，計算網頁DNA；

S4：和以前的DNA進行對比，如果DNA差異小于一定閾值，直接向數(shù)據(jù)倉庫返回網頁內容未更新，如果網頁更新較多，則把網頁內容返回給數(shù)據(jù)倉庫；

S5：解析器解析網頁中的鏈接，在本地先用布隆過濾器進行去重；

S6：把通過了本地去重的URL進行Hash，按Hash結果發(fā)送給對應的中心去重模塊，如果該模塊不在線則依次交給下一個節(jié)點。

優(yōu)選的，所述步驟S4中，爬蟲系統(tǒng)在計算網頁更新頻率時，不單獨采用估算預測的方法，而是額外結合了網頁DNA，發(fā)現(xiàn)網頁DNA沒有足夠多的變化時，直接不用返還網頁內容。

優(yōu)選的，所述步驟S5中，在布隆過濾器中先建立一個小的白名單，存儲可能被誤判的URL地址。

優(yōu)選的，所述步驟S5中，在使用布隆過濾器進行去重時，現(xiàn)在采集點進行初步去重，然后交給全局的URL去重集群進行去重。

優(yōu)選的，所述步驟S6中，在去重集群中各節(jié)點按URL的Hash值各負責其中一部分，按Hash值形成一個環(huán)，若去重集群中某一節(jié)點掉線，其掉線節(jié)點的工作由下一節(jié)點接替。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。