[發明專利]一種網頁抓取方法及系統無效
申請號: | 201110361871.2 | 申請日: | 2011-11-15 |
公開(公告)號: | CN103106219A | 公開(公告)日: | 2013-05-15 |
發明(設計)人: | 陳華清;呂晴 | 申請(專利權)人: | 盛樂信息技術(上海)有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明;王寶筠 |
地址: | 201203 上海市浦東新區*** | 國省代碼: | 上海;31 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 網頁 抓取 方法 系統 | ||
技術領域
本發明涉及互聯網領域,更具體的說,是涉及一種網頁抓取的方法及系統。
背景技術
隨著互聯網的迅速發展,互聯網的網頁數量越來越龐大,互聯網網頁的收集也越來越重要,現有的網頁抓取系統,就是一種收集互聯網網頁內容的系統。它根據一些初始鏈接集合出發,抓取這些初始鏈接的原始網頁并提取所述原始網頁上的新鏈接,并繼續抓取所述原始網頁上的新鏈接所指的網頁,如此不斷循環迭代抓取互聯網上的網頁。
所述網頁抓取系統基于網頁鏈接庫實現網頁抓取。而現有的網頁抓取系統是將其抓取的所有鏈接都集中存放到一個網頁鏈接庫中,但是現有的網頁抓取系統對所述網頁鏈接庫的選取操作與更新操作是互斥的。所以所述網頁抓取系統對所述網頁鏈接庫執行選取操作時,就無法執行對所述網頁鏈接庫的更新操作,只能等到所述選取過程結束;同理,如果對所述網頁鏈接庫執行更新操作時,所述網頁抓取系統也只能等待,直至所述更新操作結束后,才可以執行選取操作。而且對所述網頁鏈接庫的不同的選取操作之間也是互斥的,當對所述網頁鏈接庫執行當前的選取操作時,就無法執行下一個選取操作;對所述網頁鏈接庫的不同的更新操作之間也是互斥的,當對所述網頁鏈接庫執行當前的更新操作時,就無法執行下一個更新操作。
所述網頁鏈接庫存儲了各個鏈接的抓取狀態以及各個鏈接。所述選取操作指:所述網頁抓取系統從所述網頁鏈接庫中選取出額定數量的初始鏈接。所述更新操作指:所述各個鏈接的抓取狀態的更新,因為所述網頁抓取系統在抓取網頁的過程中,原有的被選取的鏈接的抓取狀態會發現改變,這需要更新到所述網頁鏈接庫中。所述更新還包括:增加新鏈接到所述網頁鏈接庫中,因為所述網頁抓取系統在抓取網頁的過程中,會不斷發現到新鏈接,所以必須將這些新鏈接增加到所述網頁鏈接庫中。
在所述網頁抓取系統中,由于存在無法對所述網頁鏈接庫同時進行選取和更新操作,這樣就使得網頁抓取系統抓取到的新鏈接無法及時更新到網頁鏈接庫中,而且所述網頁鏈接庫也不能同時進行選取和選取操作以及更新和更新操作,這三方面的原因導致了所述網頁抓取系統在抓取網頁的鏈接時存在效率低的技術問題。
發明內容
有鑒于此,本發明提供了一種網頁抓取方法及系統,以克服現有技術中無法對所述網頁抓取系統中的網頁鏈接庫同時進行選取和更新操作、選取和選取操作以及更新和更新操作,而導致的所述網頁抓取系統在抓取網頁的鏈接時存在效率低的技術問題。
為實現上述目的,本發明提供如下技術方案:
一種網頁抓取方法,所述方法應用的網頁抓取系統包括至少兩個網頁鏈接庫,包括步驟:
A、在任一個網頁鏈接庫處于空閑狀態的情況下,從所述至少任一個網頁鏈接庫中選取額定數量的初始鏈接,所述空閑狀態指所述網頁鏈接庫既不處于被選取狀態,又不處于更新狀態;
B、從所述初始鏈接對應的各個原始網頁中抓取新鏈接;
C、對于每個待更新鏈接,所述待更新鏈接指所述新鏈接以及所述初始鏈接,判斷所述待更新鏈接是否存在于任一個網頁鏈接庫中,如果是,則進入步驟D,如果否,則進入步驟E;
D、將所述待更新鏈接存儲至包含所述待更新鏈接的網頁鏈接庫對應的鏈接緩存中,或在包含所述待更新鏈接的網頁鏈接庫處于空閑狀態的情況下,根據所述待更新鏈接的抓取狀態更新包含所述待更新鏈接網頁連接庫中對應鏈接的抓取狀態;
E、將所述待更新鏈接追加到任一個網頁鏈接庫對應的追加鏈接緩存中。
一種網頁抓取系統,所述系統包括:至少兩個網頁鏈接庫,以及,
狀態檢測模塊,用于檢測任一個網頁鏈接庫是否處于空閑狀態,所述空閑狀態指所述網頁鏈接庫既不處于被選取狀態,又不處于更新狀態;
選取模塊,用于在所述狀態檢測模塊的檢測結果為是的情況下,從至少任一個處于空閑狀態的網頁鏈接庫中選取額定數量的初始鏈接;
抓取模塊,用于根據所述初始鏈接獲得與所述初始連接對應的各個原始網頁,再從所述各個原始網頁中抓取新鏈接;
重復鏈接判定模塊,用于判斷各個待更新鏈接是否存在于任一個網頁鏈接庫中,所述待更新鏈接指所述新鏈接以及所述初始鏈接;
更新模塊,在所述重復鏈接判定模塊的判斷結果為是的情況下,將所述待更新鏈接存儲到包括所述待更新鏈接的網頁鏈接庫對應的更新鏈接緩存中,或者,在包括所述待更新鏈接的網頁鏈接庫處于空閑的情況下,根據所述待更新鏈接的抓取狀態更新包括所述待更新鏈接的網頁鏈接庫中對應鏈接的抓取狀態,在所述重復鏈接判定模塊的判斷結果為否的情況下,將所述待更新鏈接追加到任一個網頁鏈接庫對應的追加鏈接緩存中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛樂信息技術(上海)有限公司,未經盛樂信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110361871.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋰離子電池電解液
- 下一篇:一種用于農機鏈條鉚釘的鏈條固定裝置