[發(fā)明專利]一種分布式爬蟲的優(yōu)化方法在審
| 申請?zhí)枺?/td> | 201611065662.2 | 申請日: | 2016-11-28 |
| 公開(公告)號: | CN108121706A | 公開(公告)日: | 2018-06-05 |
| 發(fā)明(設計)人: | 李磊;王偉;韓凱;朱立松 | 申請(專利權)人: | 央視國際網絡無錫有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 常州佰業(yè)騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 王玉平 |
| 地址: | 214000 江蘇省無錫市震*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 去重 網頁更新 網頁內容 解析器 解析 優(yōu)化 計算機軟件工程 網頁內容返回 過濾器 單點故障 調度中心 多次過濾 工作效率 流量節(jié)省 爬蟲系統(tǒng) 數(shù)據(jù)倉庫 系統(tǒng)整體 節(jié)點數(shù) 集群 鏈接 算法 網頁 響應 | ||
本發(fā)明公開了計算機軟件工程技術領域的一種分布式爬蟲的優(yōu)化方法,所述該分布式爬蟲的優(yōu)化方法具體步驟如下:S1:調度中心下發(fā)任務;S2:爬蟲按URL抓取網頁內容;S3:解析器解析網頁內容;S4:如果網頁更新較多,則把網頁內容返回給數(shù)據(jù)倉庫;S5:解析器解析網頁中的鏈接,在本地先用布隆過濾器進行去重;S6:把通過了本地去重的URL進行Hash,本發(fā)明爬蟲系統(tǒng)在對網頁更新頻率的處理上,規(guī)避了復雜的算法,卻又能把這部分流量節(jié)省下來,可以極大提高爬蟲的工作效率,提高系統(tǒng)整體響應速度,在URL去重上,使用多次過濾結合去重集群的方式,在爬蟲節(jié)點數(shù)較多時,可以避免單個去重模塊的壓力和單點故障。
技術領域
本發(fā)明涉及計算機軟件工程技術領域,具體為一種分布式爬蟲的優(yōu)化方法。
背景技術
目前的中小型分布式網絡爬蟲框架和系統(tǒng),包括開源的Nutch,有兩個問題必須解決:1、URL去重問題。目前普遍的最優(yōu)做法是在爬蟲調度中心使用布隆過濾器進行去重,磁盤空間和時間效率上可以得到較好保證;2、網頁更新抓取頻率問題。目前普遍的做法是在網頁分析入庫時根據(jù)網頁去重算法判斷網頁是否更新,然后結合更新歷史,再用算法估算下次什么時間再次抓取該網頁。
但是上述方案也有不足之處,有如下缺點:1、大量重復URL被解析出來反饋給調度中心,給調度中心URL去重模塊帶來了很大的壓力,而且大量重復的URL回傳花費了不少不必要的網絡流量,降低了爬蟲系統(tǒng)的工作效率;2、網頁被抓取后回傳給數(shù)據(jù)倉庫,然后在頁面解析時再進行分析,而此過程中大量沒有更新的網頁也在其中,給爬蟲系統(tǒng)浪費了很多時間和流量。為此,我們提出了一種分布式爬蟲的優(yōu)化方法投入使用,以解決上述問題。
發(fā)明內容
本發(fā)明的目的在于提供一種分布式爬蟲的優(yōu)化方法,以解決上述背景技術中提出的大量重復的URL回傳花費了不少不必要的網絡流量,降低了爬蟲系統(tǒng)的工作效率,網頁被抓取后回傳給數(shù)據(jù)倉庫,然后在頁面解析時再進行分析,而此過程中大量沒有更新的網頁也在其中,給爬蟲系統(tǒng)浪費了很多時間和流量的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:一種分布式爬蟲的優(yōu)化方法,所述該分布式爬蟲的優(yōu)化方法具體步驟如下:
S1:調度中心下發(fā)任務,一個任務中包括一個URL和此URL以前抓取結果的DNA特征;
S2:爬蟲按URL抓取網頁內容;
S3:解析器解析網頁內容,計算網頁DNA;
S4:和以前的DNA進行對比,如果DNA差異小于一定閾值,直接向數(shù)據(jù)倉庫返回網頁內容未更新,如果網頁更新較多,則把網頁內容返回給數(shù)據(jù)倉庫;
S5:解析器解析網頁中的鏈接,在本地先用布隆過濾器進行去重;
S6:把通過了本地去重的URL進行Hash,按Hash結果發(fā)送給對應的中心去重模塊,如果該模塊不在線則依次交給下一個節(jié)點。
優(yōu)選的,所述步驟S4中,爬蟲系統(tǒng)在計算網頁更新頻率時,不單獨采用估算預測的方法,而是額外結合了網頁DNA,發(fā)現(xiàn)網頁DNA沒有足夠多的變化時,直接不用返還網頁內容。
優(yōu)選的,所述步驟S5中,在布隆過濾器中先建立一個小的白名單,存儲可能被誤判的URL地址。
優(yōu)選的,所述步驟S5中,在使用布隆過濾器進行去重時,現(xiàn)在采集點進行初步去重,然后交給全局的URL去重集群進行去重。
優(yōu)選的,所述步驟S6中,在去重集群中各節(jié)點按URL的Hash值各負責其中一部分,按Hash值形成一個環(huán),若去重集群中某一節(jié)點掉線,其掉線節(jié)點的工作由下一節(jié)點接替。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于央視國際網絡無錫有限公司,未經央視國際網絡無錫有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611065662.2/2.html,轉載請聲明來源鉆瓜專利網。





