日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種網頁抓取方法及系統無效

專利信息
申請號: 201110361871.2 申請日: 2011-11-15
公開(公告)號: CN103106219A 公開(公告)日: 2013-05-15
發明(設計)人: 陳華清;呂晴 申請(專利權)人: 盛樂信息技術(上海)有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京集佳知識產權代理有限公司 11227 代理人: 逯長明;王寶筠
地址: 201203 上海市浦東新區*** 國省代碼: 上海;31
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 網頁 抓取 方法 系統
【權利要求書】:

1.一種網頁抓取方法,其特征在于,所述方法應用的網頁抓取系統包括至少兩個網頁鏈接庫,包括步驟:

A、在任一個網頁鏈接庫處于空閑狀態的情況下,從所述至少任一個網頁鏈接庫中選取額定數量的初始鏈接,所述空閑狀態指所述網頁鏈接庫既不處于被選取狀態,又不處于更新狀態;

B、從所述初始鏈接對應的各個原始網頁中抓取新鏈接;

C、對于每個待更新鏈接,所述待更新鏈接指所述新鏈接以及所述初始鏈接,判斷所述待更新鏈接是否存在于任一個網頁鏈接庫中,如果是,則進入步驟D,如果否,則進入步驟E;

D、將所述待更新鏈接存儲至包含所述待更新鏈接的網頁鏈接庫對應的鏈接緩存中,或在包含所述待更新鏈接的網頁鏈接庫處于空閑狀態的情況下,根據所述待更新鏈接的抓取狀態更新包含所述待更新鏈接網頁連接庫中對應鏈接的抓取狀態;

E、將所述待更新鏈接追加到任一個網頁鏈接庫對應的追加鏈接緩存中。

2.根據權利要求1所述方法,其特征在于,在所述步驟A前,還包括:

步驟F、檢測所述各個網頁鏈接庫是否處于空閑狀態,如果至少兩個網頁鏈接庫處于空閑狀態,則比較所述處于空閑狀態的網頁鏈接庫的存儲鏈接的量,得到鏈接存儲量最大的網頁鏈接庫;

相應的,步驟A為:從所述鏈接存儲量最大的網頁鏈接庫中選取額定數量的初始鏈接。

3.根據權利要求1所述方法,其特征在于,在所述步驟C前還包括:

步驟G、檢測所述各個網頁鏈接庫是否處于空閑狀態,如果至少兩個處于空閑狀態,則比較所述處于空閑狀態的網頁鏈接庫中鏈接的存儲量,得到鏈接存儲量最小的網頁鏈接庫;

相應的,所述步驟E具體為:將所述待更新鏈接追加到所述鏈接存儲量最小的網頁鏈接庫對應的追加鏈接緩存中。

4.根據權利要求3所述方法,其特征在于,所述步驟C具體為:

C1、對于每個所述待更新鏈接,判斷所述待更新鏈接是否存在于除所述鏈接存儲量最小的網頁鏈接庫以外的其他任一個網頁鏈接庫中,如果是,則相應的,所述步驟D為:將所述待更新鏈接存儲至包含所述待更新鏈接的所述其他任一個網頁鏈接庫對應的更新鏈接緩存中,或在包括所述待更新鏈接的網頁鏈接庫處于空閑的情況下,根據所述待更新鏈接的抓取狀態更新包含所述待更新鏈接網頁連接庫中對應鏈接的抓取狀態;如果否,則進入步驟C2;

C2、判斷所述待更新鏈接是否存在于所述鏈接存儲量最小的網頁鏈接庫中,如果是,則相應的,所述步驟D為:將所述待更新鏈接存儲至所述鏈接存儲量最小的網頁鏈接庫對應的更新鏈接緩存中,或在所述鏈接存儲量最小的網頁鏈接庫處于空閑的情況下,根據所述待更新鏈接的抓取狀態更新所述鏈接存儲量最小的網頁鏈接庫中對應鏈接的抓取狀態。

5.根據權利要求1所述方法,其特征在于,所述步驟C具體為:采用多哈希函數映射的快速查找算法判斷各個所述待更新鏈接是否存在于任一個網頁鏈接庫中。

6.根據權利要求1所述方法,其特征在于,在步驟E后,還包括:

步驟H、在所述各個待更新鏈接判斷完畢后,將所述追加鏈接緩存中的鏈接寫入與所述追加鏈接緩存對應的網頁鏈接庫中,以及將更新鏈接緩存中的鏈接寫入與所述更新鏈接緩存對應的網頁鏈接庫中。

7.一種網頁抓取系統,其特征在于,所述系統包括:至少兩個網頁鏈接庫;

以及,狀態檢測模塊,用于檢測任一個網頁鏈接庫是否處于空閑狀態,所述空閑狀態指所述網頁鏈接庫既不處于被選取狀態,又不處于更新狀態;

選取模塊,用于在所述狀態檢測模塊的檢測結果為是的情況下,從至少任一個處于空閑狀態的網頁鏈接庫中選取額定數量的初始鏈接;

抓取模塊,用于根據所述初始鏈接獲得與所述初始連接對應的各個原始網頁,再從所述各個原始網頁中抓取新鏈接;

重復鏈接判定模塊,用于判斷各個待更新鏈接是否存在于任一個網頁鏈接庫中,所述待更新鏈接指所述新鏈接以及所述初始鏈接;

更新模塊,在所述重復鏈接判定模塊的判斷結果為是的情況下,將所述待更新鏈接存儲到包括所述待更新鏈接的網頁鏈接庫對應的更新鏈接緩存中,或者,在包括所述待更新鏈接的網頁鏈接庫處于空閑的情況下,根據所述待更新鏈接的抓取狀態更新包括所述待更新鏈接的網頁鏈接庫中對應鏈接的抓取狀態,在所述重復鏈接判定模塊的判斷結果為否的情況下,將所述待更新鏈接追加到任一個網頁鏈接庫對應的追加鏈接緩存中。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛樂信息技術(上海)有限公司,未經盛樂信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110361871.2/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美日韩中文字幕三区| 中文字幕一级二级三级| 欧美精品九九| 国产欧美视频一区二区三区| 国产精品欧美久久| 日日噜噜夜夜狠狠| 国产欧美精品一区二区三区-老狼 国产精品一二三区视频网站 | 国产91一区| 亚洲欧美国产日韩综合| 日韩精品一区在线视频| 99精品久久99久久久久| 免费91麻豆精品国产自产在线观看| 久久久精品久久日韩一区综合| 一二三区欧美| 狠狠色噜噜狠狠狠狠色吗综合 | 亚洲精品国产精品国自产网站按摩| 欧美激情精品久久久久久免费| 久爱视频精品| 久久精品视频3| 国产亚洲精品久久19p| 国产精品麻豆一区二区三区| 一区二区在线国产| 国产在线不卡一| 亚洲精品乱码久久久久久蜜糖图片 | 亚洲精品国产主播一区| 欧美精品第一区| 中文字幕一区二区三区不卡 | а√天堂8资源中文在线| 欧美hdxxxx| 黄色国产一区二区| 日韩三区三区一区区欧69国产 | 九九久久国产精品| 欧美乱妇在线视频播放| 亚洲二区在线播放视频| 好吊色欧美一区二区三区视频 | 91麻豆精品一区二区三区| 精品国产区一区二| 日韩亚洲欧美一区二区| 欧美激情精品久久久久久免费 | 九九热国产精品视频| 日本一区欧美| 午夜看片网址| 福利电影一区二区三区| 视频国产一区二区| 亚洲精品日本无v一区| 国产一卡二卡在线播放| 精品国产免费久久| 亚洲日韩aⅴ在线视频| 国产精品日韩电影| 老女人伦理hd| 国产日韩区| 97久久国产亚洲精品超碰热| 男女午夜影院| 国产一级自拍| 精品国产一区二| 欧美一区二区伦理片| 96国产精品视频| 国产麻豆一区二区三区在线观看 | 精品国产一级| 91嫩草入口| 999久久久国产| 国产97久久| 国产精品久久久久久久妇女| 日韩精品中文字幕一区二区| 国产欧美性| 久久国产欧美日韩精品| 国产在线不卡一| 日韩欧美激情| 麻豆精品久久久| 国产精品无码专区在线观看 | 国产欧美日韩中文字幕| 一区二区三区中文字幕| 亚洲国产99| 欧洲精品一区二区三区久久| 国产精品一二三区视频出来一| 日本高清一二区| 久久久久亚洲精品视频| 国产农村妇女精品一二区| 久久久久久久国产精品视频 | 免费观看又色又爽又刺激的视频| 国产白丝一区二区三区| aaaaa国产欧美一区二区|