日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種網頁抓取方法及系統無效

專利信息
申請號: 201110361871.2 申請日: 2011-11-15
公開(公告)號: CN103106219A 公開(公告)日: 2013-05-15
發明(設計)人: 陳華清;呂晴 申請(專利權)人: 盛樂信息技術(上海)有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京集佳知識產權代理有限公司 11227 代理人: 逯長明;王寶筠
地址: 201203 上海市浦東新區*** 國省代碼: 上海;31
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 網頁 抓取 方法 系統
【說明書】:

技術領域

發明涉及互聯網領域,更具體的說,是涉及一種網頁抓取的方法及系統。

背景技術

隨著互聯網的迅速發展,互聯網的網頁數量越來越龐大,互聯網網頁的收集也越來越重要,現有的網頁抓取系統,就是一種收集互聯網網頁內容的系統。它根據一些初始鏈接集合出發,抓取這些初始鏈接的原始網頁并提取所述原始網頁上的新鏈接,并繼續抓取所述原始網頁上的新鏈接所指的網頁,如此不斷循環迭代抓取互聯網上的網頁。

所述網頁抓取系統基于網頁鏈接庫實現網頁抓取。而現有的網頁抓取系統是將其抓取的所有鏈接都集中存放到一個網頁鏈接庫中,但是現有的網頁抓取系統對所述網頁鏈接庫的選取操作與更新操作是互斥的。所以所述網頁抓取系統對所述網頁鏈接庫執行選取操作時,就無法執行對所述網頁鏈接庫的更新操作,只能等到所述選取過程結束;同理,如果對所述網頁鏈接庫執行更新操作時,所述網頁抓取系統也只能等待,直至所述更新操作結束后,才可以執行選取操作。而且對所述網頁鏈接庫的不同的選取操作之間也是互斥的,當對所述網頁鏈接庫執行當前的選取操作時,就無法執行下一個選取操作;對所述網頁鏈接庫的不同的更新操作之間也是互斥的,當對所述網頁鏈接庫執行當前的更新操作時,就無法執行下一個更新操作。

所述網頁鏈接庫存儲了各個鏈接的抓取狀態以及各個鏈接。所述選取操作指:所述網頁抓取系統從所述網頁鏈接庫中選取出額定數量的初始鏈接。所述更新操作指:所述各個鏈接的抓取狀態的更新,因為所述網頁抓取系統在抓取網頁的過程中,原有的被選取的鏈接的抓取狀態會發現改變,這需要更新到所述網頁鏈接庫中。所述更新還包括:增加新鏈接到所述網頁鏈接庫中,因為所述網頁抓取系統在抓取網頁的過程中,會不斷發現到新鏈接,所以必須將這些新鏈接增加到所述網頁鏈接庫中。

在所述網頁抓取系統中,由于存在無法對所述網頁鏈接庫同時進行選取和更新操作,這樣就使得網頁抓取系統抓取到的新鏈接無法及時更新到網頁鏈接庫中,而且所述網頁鏈接庫也不能同時進行選取和選取操作以及更新和更新操作,這三方面的原因導致了所述網頁抓取系統在抓取網頁的鏈接時存在效率低的技術問題。

發明內容

有鑒于此,本發明提供了一種網頁抓取方法及系統,以克服現有技術中無法對所述網頁抓取系統中的網頁鏈接庫同時進行選取和更新操作、選取和選取操作以及更新和更新操作,而導致的所述網頁抓取系統在抓取網頁的鏈接時存在效率低的技術問題。

為實現上述目的,本發明提供如下技術方案:

一種網頁抓取方法,所述方法應用的網頁抓取系統包括至少兩個網頁鏈接庫,包括步驟:

A、在任一個網頁鏈接庫處于空閑狀態的情況下,從所述至少任一個網頁鏈接庫中選取額定數量的初始鏈接,所述空閑狀態指所述網頁鏈接庫既不處于被選取狀態,又不處于更新狀態;

B、從所述初始鏈接對應的各個原始網頁中抓取新鏈接;

C、對于每個待更新鏈接,所述待更新鏈接指所述新鏈接以及所述初始鏈接,判斷所述待更新鏈接是否存在于任一個網頁鏈接庫中,如果是,則進入步驟D,如果否,則進入步驟E;

D、將所述待更新鏈接存儲至包含所述待更新鏈接的網頁鏈接庫對應的鏈接緩存中,或在包含所述待更新鏈接的網頁鏈接庫處于空閑狀態的情況下,根據所述待更新鏈接的抓取狀態更新包含所述待更新鏈接網頁連接庫中對應鏈接的抓取狀態;

E、將所述待更新鏈接追加到任一個網頁鏈接庫對應的追加鏈接緩存中。

一種網頁抓取系統,所述系統包括:至少兩個網頁鏈接庫,以及,

狀態檢測模塊,用于檢測任一個網頁鏈接庫是否處于空閑狀態,所述空閑狀態指所述網頁鏈接庫既不處于被選取狀態,又不處于更新狀態;

選取模塊,用于在所述狀態檢測模塊的檢測結果為是的情況下,從至少任一個處于空閑狀態的網頁鏈接庫中選取額定數量的初始鏈接;

抓取模塊,用于根據所述初始鏈接獲得與所述初始連接對應的各個原始網頁,再從所述各個原始網頁中抓取新鏈接;

重復鏈接判定模塊,用于判斷各個待更新鏈接是否存在于任一個網頁鏈接庫中,所述待更新鏈接指所述新鏈接以及所述初始鏈接;

更新模塊,在所述重復鏈接判定模塊的判斷結果為是的情況下,將所述待更新鏈接存儲到包括所述待更新鏈接的網頁鏈接庫對應的更新鏈接緩存中,或者,在包括所述待更新鏈接的網頁鏈接庫處于空閑的情況下,根據所述待更新鏈接的抓取狀態更新包括所述待更新鏈接的網頁鏈接庫中對應鏈接的抓取狀態,在所述重復鏈接判定模塊的判斷結果為否的情況下,將所述待更新鏈接追加到任一個網頁鏈接庫對應的追加鏈接緩存中。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛樂信息技術(上海)有限公司,未經盛樂信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110361871.2/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 亚洲精品国产一区二区三区| 国产一区二区电影| 日韩精品一区三区| 精品国产乱码久久久久久图片| 91精品综合| 国产精品一区二区av日韩在线| 国产一区二区午夜| 国产在线精品一区二区在线播放| 精品国产乱码一区二区三区a | 性色av色香蕉一区二区三区| 一区二区三区在线观看国产| 亚洲视频精品一区| 国产乱人伦偷精品视频免下载| 国产欧美综合一区| 日韩中文字幕在线一区| 国产午夜亚洲精品羞羞网站| 国产精品麻豆自拍| 午夜伦理在线观看| 伊人欧美一区| 欧美激情综合在线| 久久久久久久亚洲视频| 亚洲精品卡一卡二| 91精品第一页| 野花社区不卡一卡二| free×性护士vidos欧美| 国产在线精品一区| 国内少妇自拍视频一区| 国产在线一卡二卡| 久免费看少妇高潮a级特黄按摩 | 少妇av一区二区三区| 国产97在线播放| 国产乱色国产精品播放视频| 欧美日韩久久一区| 久久99久久99精品免观看软件| 国产日韩欧美一区二区在线观看| 国产视频一区二区不卡| 国产一区影院| 精品国产一区二区在线| 日韩欧美一区二区久久婷婷| 欧美一区二区三区在线免费观看 | 欧美一区二区精品久久911| 亚洲欧洲日韩av| 久久国产精品欧美| 狠狠躁天天躁又黄又爽| 精品国产一区二区三| 好吊色欧美一区二区三区视频 | free×性护士vidos欧美| 国产一区二区资源| 欧美日韩国产午夜| 性国产日韩欧美一区二区在线| 国产二区免费| 久久久久久中文字幕| 精品国产一区二区三区免费| 麻豆精品国产入口| 91精品国产高清一区二区三区| 欧美日韩三区| 日韩偷拍精品| 久久国产精品首页| 国产的欧美一区二区三区| 欧美一级特黄乱妇高清视频| 亚洲精品91久久久久久| 亚洲高清国产精品| 国产伦理精品一区二区三区观看体验| 久久国产精品欧美| 午夜伦全在线观看| 99国产精品| 欧美精品在线不卡| 国产精品乱码久久久久久久 | 国产午夜三级一二三区| 亚洲欧美国产日韩色伦| 午夜国内精品a一区二区桃色| 久久69视频| 99久久精品国| av狠狠干| 99精品黄色| 国产精品视频一区二区在线观看| 久久99久久99精品免观看软件| 欧美精品一卡二卡| 国产乱码一区二区| 欧美片一区二区| 亚洲精欧美一区二区精品| 99re久久精品国产|