[發(fā)明專利]一種基于網(wǎng)頁爬取的爬蟲技術(shù)在審
| 申請(qǐng)?zhí)枺?/td> | 201310040090.2 | 申請(qǐng)日: | 2013-02-01 |
| 公開(公告)號(hào): | CN103970788A | 公開(公告)日: | 2014-08-06 |
| 發(fā)明(設(shè)計(jì))人: | 尹科 | 申請(qǐng)(專利權(quán))人: | 北京英富森信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100190 北京市海淀區(qū)中關(guān)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)頁 爬蟲 技術(shù) | ||
1.一種基于網(wǎng)頁爬取的爬蟲技術(shù),其特征在于,初始化URL鏈接地址后,包括以下步驟:
1)均衡分配爬蟲線程從給定的入口起在運(yùn)行隊(duì)列讀取排列在隊(duì)首的URL鏈接地址;
2)判斷所述URL鏈接地址是否存在,是則停止爬取,否則,爬取所述URL鏈接地址放入完成隊(duì)列;
3)對(duì)放入所述完成隊(duì)列的所述URL鏈接地址對(duì)應(yīng)的網(wǎng)頁進(jìn)行提取;
4)對(duì)所述提取的網(wǎng)頁中的URL鏈接地址過濾,留取有效URL鏈接地址寫入運(yùn)行隊(duì)列,返回步驟1)重復(fù)以上步驟。
2.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù),其特征在于,當(dāng)所述排列在隊(duì)首的URL長度超過預(yù)設(shè)閾值時(shí),所述爬蟲線程停止對(duì)所述對(duì)排列在隊(duì)首的URL進(jìn)行爬取。
3.根據(jù)權(quán)利要求1或2所述一種基于網(wǎng)頁爬取的爬蟲技術(shù),其特征在于,所述爬蟲線程從運(yùn)行隊(duì)列爬取排列在隊(duì)首的URL時(shí),采取廣度優(yōu)先法進(jìn)行爬取,即先從所述URL的起始網(wǎng)頁開始,抓取所述起始網(wǎng)頁中所有鏈接的網(wǎng)頁,然后從抓取的所述所有鏈接的網(wǎng)頁中再選擇一個(gè)網(wǎng)頁,抓取所述選擇的網(wǎng)頁中的所有鏈接頁面,直至所述所有鏈接的網(wǎng)頁中所有網(wǎng)頁中的所有鏈接頁面全部抓取完畢。
4.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù),其特征在于,所述步驟2)中,所述爬取所述URL鏈接地址的具體步驟如下:
爬蟲線程開啟后,首先由中心爬蟲將待爬取的起始頁URL鏈接地址讀取到爬蟲緩存,然后根據(jù)爬取優(yōu)先順序?qū)Ψ湃氲剿雠老x緩存中所述起始頁URL鏈接地址中的內(nèi)容進(jìn)行抓取、解析、抽取所述內(nèi)容中的詳細(xì)URL鏈接地址放入U(xiǎn)RL存儲(chǔ)容器中,最后將抽取到的詳細(xì)URL鏈接地址進(jìn)行再次爬取。
5.根據(jù)權(quán)利要求4所述一種基于網(wǎng)頁爬取的爬蟲技術(shù),其特征在于,所述對(duì)抽取的詳細(xì)URL鏈接地址進(jìn)行抽取時(shí),對(duì)抽取到的所述詳細(xì)URL鏈接地址進(jìn)行去重、增量操作,以免出現(xiàn)重復(fù)爬取同一個(gè)詳細(xì)URL網(wǎng)址的情況。
6.根據(jù)權(quán)利要求4所述一種基于網(wǎng)頁爬取的爬蟲技術(shù),其特征在于,所述對(duì)抽取到的詳細(xì)URL鏈接地址進(jìn)行抽取的步驟如下:
A、從所述URL存儲(chǔ)容器中讀取待爬取的詳細(xì)URL鏈接地址,并對(duì)所述詳細(xì)URL鏈接地址進(jìn)行正確性校驗(yàn),將校驗(yàn)正確的待爬取詳細(xì)URL鏈接地址放入爬蟲緩存中;
B、從互聯(lián)網(wǎng)中爬取指定詳細(xì)URL鏈接地址,將爬取到的網(wǎng)頁信息內(nèi)容進(jìn)行相應(yīng)解碼、解壓縮;
C、解析爬取到的所述網(wǎng)頁信息,抽取出網(wǎng)頁中的URL鏈接地址,并對(duì)所述網(wǎng)頁中的URL鏈接地址進(jìn)行校驗(yàn)、去重操作;然后重復(fù)以上步驟A-C。
7.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù),其特征在于,所述爬蟲線程從給定的入口起在運(yùn)行隊(duì)列讀取排列在隊(duì)首的URL鏈接地址的步驟之前,還包括以下步驟:
在接收任務(wù)請(qǐng)求后,把任務(wù)拆分成任務(wù)分片,每個(gè)任務(wù)分片僅包含一個(gè)網(wǎng)站,每個(gè)任務(wù)分片均衡分配給由多個(gè)爬蟲并行執(zhí)行。
8.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù),其特征在于,在爬蟲線程執(zhí)行任務(wù)過程中,為每個(gè)爬蟲線程的處理進(jìn)度保存狀態(tài),每取一批網(wǎng)頁都要記錄本線程最大的網(wǎng)頁ID,記錄到數(shù)據(jù)庫里,進(jìn)程重啟后讀取IDID,恢復(fù)爬蟲系統(tǒng)的爬取環(huán)境,接著抓后面的頁面。
9.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁爬取的爬蟲技術(shù),其特征在于,采用Hash算法均衡分配爬蟲線程的任務(wù),即每一個(gè)URL經(jīng)過Hash函數(shù)計(jì)算得哈希值,不同的哈希值對(duì)應(yīng)不同的爬蟲,將一個(gè)URL交給Hash函數(shù)計(jì)算出的對(duì)應(yīng)爬蟲進(jìn)行處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京英富森信息技術(shù)有限公司,未經(jīng)北京英富森信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310040090.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 檢測(cè)反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)
- 防止技術(shù)開啟的鎖具新技術(shù)
- 技術(shù)評(píng)價(jià)裝置、技術(shù)評(píng)價(jià)程序、技術(shù)評(píng)價(jià)方法
- 防止技術(shù)開啟的鎖具新技術(shù)
- 視聽模擬技術(shù)(VAS技術(shù))
- 用于技術(shù)縮放的MRAM集成技術(shù)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的方法和用戶接口、以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的技術(shù)
- 技術(shù)偵查方法及技術(shù)偵查系統(tǒng)
- 使用投影技術(shù)增強(qiáng)睡眠技術(shù)
- 基于技術(shù)庫的技術(shù)推薦方法





