[發(fā)明專利]一種基于網(wǎng)頁爬取的爬蟲技術(shù)在審

申請(qǐng)?zhí)枺?/td>	201310040090.2	申請(qǐng)日：	2013-02-01
公開（公告）號(hào)：	CN103970788A	公開（公告）日：	2014-08-06
發(fā)明（設(shè)計(jì)）人：	尹科	申請(qǐng)（專利權(quán)）人：	北京英富森信息技術(shù)有限公司
主分類號(hào)：	G06F17/30	分類號(hào)：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	100190 北京市海淀區(qū)中關(guān)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于網(wǎng)頁爬蟲技術(shù)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于網(wǎng)頁爬取的爬蟲技術(shù)，其特征在于，初始化URL鏈接地址后，包括以下步驟：

1)均衡分配爬蟲線程從給定的入口起在運(yùn)行隊(duì)列讀取排列在隊(duì)首的URL鏈接地址；

2)判斷所述URL鏈接地址是否存在，是則停止爬取，否則，爬取所述URL鏈接地址放入完成隊(duì)列；

3)對(duì)放入所述完成隊(duì)列的所述URL鏈接地址對(duì)應(yīng)的網(wǎng)頁進(jìn)行提取；

4)對(duì)所述提取的網(wǎng)頁中的URL鏈接地址過濾，留取有效URL鏈接地址寫入運(yùn)行隊(duì)列，返回步驟1)重復(fù)以上步驟。

2.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù)，其特征在于，當(dāng)所述排列在隊(duì)首的URL長度超過預(yù)設(shè)閾值時(shí)，所述爬蟲線程停止對(duì)所述對(duì)排列在隊(duì)首的URL進(jìn)行爬取。

3.根據(jù)權(quán)利要求1或2所述一種基于網(wǎng)頁爬取的爬蟲技術(shù)，其特征在于，所述爬蟲線程從運(yùn)行隊(duì)列爬取排列在隊(duì)首的URL時(shí)，采取廣度優(yōu)先法進(jìn)行爬取，即先從所述URL的起始網(wǎng)頁開始，抓取所述起始網(wǎng)頁中所有鏈接的網(wǎng)頁，然后從抓取的所述所有鏈接的網(wǎng)頁中再選擇一個(gè)網(wǎng)頁，抓取所述選擇的網(wǎng)頁中的所有鏈接頁面，直至所述所有鏈接的網(wǎng)頁中所有網(wǎng)頁中的所有鏈接頁面全部抓取完畢。

4.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù)，其特征在于，所述步驟2)中，所述爬取所述URL鏈接地址的具體步驟如下：

爬蟲線程開啟后，首先由中心爬蟲將待爬取的起始頁URL鏈接地址讀取到爬蟲緩存，然后根據(jù)爬取優(yōu)先順序?qū)Ψ湃氲剿雠老x緩存中所述起始頁URL鏈接地址中的內(nèi)容進(jìn)行抓取、解析、抽取所述內(nèi)容中的詳細(xì)URL鏈接地址放入U(xiǎn)RL存儲(chǔ)容器中，最后將抽取到的詳細(xì)URL鏈接地址進(jìn)行再次爬取。

5.根據(jù)權(quán)利要求4所述一種基于網(wǎng)頁爬取的爬蟲技術(shù)，其特征在于，所述對(duì)抽取的詳細(xì)URL鏈接地址進(jìn)行抽取時(shí)，對(duì)抽取到的所述詳細(xì)URL鏈接地址進(jìn)行去重、增量操作，以免出現(xiàn)重復(fù)爬取同一個(gè)詳細(xì)URL網(wǎng)址的情況。

6.根據(jù)權(quán)利要求4所述一種基于網(wǎng)頁爬取的爬蟲技術(shù)，其特征在于，所述對(duì)抽取到的詳細(xì)URL鏈接地址進(jìn)行抽取的步驟如下：

A、從所述URL存儲(chǔ)容器中讀取待爬取的詳細(xì)URL鏈接地址，并對(duì)所述詳細(xì)URL鏈接地址進(jìn)行正確性校驗(yàn)，將校驗(yàn)正確的待爬取詳細(xì)URL鏈接地址放入爬蟲緩存中；

B、從互聯(lián)網(wǎng)中爬取指定詳細(xì)URL鏈接地址，將爬取到的網(wǎng)頁信息內(nèi)容進(jìn)行相應(yīng)解碼、解壓縮；

C、解析爬取到的所述網(wǎng)頁信息，抽取出網(wǎng)頁中的URL鏈接地址，并對(duì)所述網(wǎng)頁中的URL鏈接地址進(jìn)行校驗(yàn)、去重操作；然后重復(fù)以上步驟A-C。

7.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù)，其特征在于，所述爬蟲線程從給定的入口起在運(yùn)行隊(duì)列讀取排列在隊(duì)首的URL鏈接地址的步驟之前，還包括以下步驟：

在接收任務(wù)請(qǐng)求后，把任務(wù)拆分成任務(wù)分片，每個(gè)任務(wù)分片僅包含一個(gè)網(wǎng)站，每個(gè)任務(wù)分片均衡分配給由多個(gè)爬蟲并行執(zhí)行。

8.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù)，其特征在于，在爬蟲線程執(zhí)行任務(wù)過程中，為每個(gè)爬蟲線程的處理進(jìn)度保存狀態(tài)，每取一批網(wǎng)頁都要記錄本線程最大的網(wǎng)頁ID，記錄到數(shù)據(jù)庫里，進(jìn)程重啟后讀取IDID，恢復(fù)爬蟲系統(tǒng)的爬取環(huán)境，接著抓后面的頁面。

9.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù)，其特征在于，采用Hash算法均衡分配爬蟲線程的任務(wù)，即每一個(gè)URL經(jīng)過Hash函數(shù)計(jì)算得哈希值，不同的哈希值對(duì)應(yīng)不同的爬蟲，將一個(gè)URL交給Hash函數(shù)計(jì)算出的對(duì)應(yīng)爬蟲進(jìn)行處理。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京英富森信息技術(shù)有限公司，未經(jīng)北京英富森信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310040090.2/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：聚酯廢水中回收乙醛和乙二醇的系統(tǒng)
下一篇：電容式觸摸屏觸點(diǎn)定位方法和終端

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】