[發明專利]防假死爬蟲系統的構建方法無效
| 申請號: | 200910080438.4 | 申請日: | 2009-03-18 |
| 公開(公告)號: | CN101504665A | 公開(公告)日: | 2009-08-12 |
| 發明(設計)人: | 楊溥;郭軍;徐蔚然 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 假死 爬蟲 系統 構建 方法 | ||
技術領域
本發明涉及網絡數據采集系統的構建方法,尤其涉及一種防假死爬蟲系統的構建方法。
背景技術
人類步入信息時代,信息爆炸,越來越多鋪天蓋地的信息壓得人喘不過氣來。在這種狀況下,人們為了快捷地抽出有用的信息從而提高工作、學習等效率,提出并實現了搜索引擎。作為搜索引擎的基礎和搜索引擎處理的數據的唯一來源,爬蟲系統的地位和重要性漸漸突顯。不同于其他的搜索引擎部件,爬蟲是和網絡、存儲密切相關的,這樣就導致外部環境對于爬蟲的健壯性起到深刻的影響。現行一般的搜索引擎爬蟲系統的健壯性很差,不能適應網絡環境和硬件環境多樣性,因此導致各種不能正常通信和許多沒有必要的等待時間,即導致爬蟲的假死狀態,浪費大量的時間和犧牲相當一部分的效率。怎樣做到爬蟲系統具有防假死功能已受到越來越多的學者的關注。目前,還沒有一種系統的行之有效的防假死爬蟲系統的構建方法。
爬蟲系統不同于搜索引擎的其他部件系統,鑒于其與網絡、存儲密切相關的性質,為了有效地解決爬蟲系統的假死狀態,本發明從網絡環境和存儲環境出發,從根源上有效地解決爬蟲系統的假死狀態。
發明內容
針對現有技術存在的問題,本發明的目的是提供一種防假死爬蟲系統的構建方法。
為達到上述目的,本發明的方法包括下列步驟:
(1)檢測處理被請求網頁;
(2)檢測處理網絡響應;
(3)檢測處理存儲空間;
(4)重復執行步驟(1),(2)和(3),直到網頁超鏈接全部處理完為止。
上述方法中,步驟(1)進一步包括:
(11)向服務器請求網頁;
(12)檢測被請求網頁是否存在;
(13)若被請求網頁存在,則提取和存儲超鏈接;若被請求網頁不存在,則執行步驟(4)。
上述方法中,步驟(2)進一步包括:
(21)檢測獲取網頁的網絡響應是否太久;
(22)若獲取網頁的網絡響應是太久,則執行步驟(23);若獲取網頁的網絡響應不是太久,則執行步驟(3);
(23)檢測重試次數是否到達設定值;
(24)若檢測重試次數到達設定值,則執行步驟(4);若檢測重試次數沒有到達設定值,則執行步驟(25);
(25)重試獲取網頁,執行步驟(21)。
上述方法中,步驟(3)進一步包括:
(31)檢測存儲空間是否不足;
(32)若存儲空間不足,則特殊處理;若存儲空間沒有不足,則存儲網頁。
上述方法中,步驟(4)進一步包括:
(41)檢測網頁超鏈接是否全部處理;
(42)若網頁超鏈接沒有全部處理,則執行步驟(43);若網頁超鏈接是全部處理,則結束;
(43)獲得下一個超鏈接,執行步驟(44);
(44)執行步驟(1)。
本發明的有益效果在于,通過應用本發明所描述的方法,可以有效地防止爬蟲系統假死狀態的發生;可以顯著地減少爬蟲系統等待時間和提高爬蟲系統的爬抓效率;可以為搭建具有健壯性的爬蟲系統提供通用的框架,有效地降低系統開發成本。
結合附圖,本發明的其他特點和優點可以從下面通過舉例來對本發明的原理進行解釋的優選實施方式的說明中變得更清楚。
附圖說明
圖1是根據本發明的一個實施方式的方法的流程圖。
具體實施方式
下面將結合附圖對本發明的具體實施方式進行詳細描述。
圖1是根據本發明的一個實施方式的方法的流程圖。該流程開始于步驟101。然后在步驟102中,向服務器請求網頁。需要說明的是起始超鏈接應當是包含超鏈接豐富的web網頁,如網站的首頁等,這僅僅是最優舉例,起始超鏈接的不同不構成對本發明的限制。
向服務器請求網頁,一種實施方式是通過HTTP協議GET方法,即通過給服務器發送GET請求信息,來希望獲得URL所指定的網頁。以上是向服務器請求網頁的一個實施例,其他不同的實施例子不構成對本發明的限制。
步驟102之后,流程進入步驟103。
在步驟103,檢測被請求網頁是否存在。一個實施例是通過檢測服務器響應后返回的狀態碼來確定被請求網頁是否存在。在步驟102中通過HTTP協議GET方法給服務器發送請求信息后,服務器會響應并返回一個狀態碼,若狀態碼為404(NotFound),則說明被請求網頁不存在;若狀態碼不為404(NotFound),則說明被請求網頁存在。以上是檢測被請求網頁是否存在的一個實施例,其他不同的實施例子不構成對本發明的限制。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910080438.4/2.html,轉載請聲明來源鉆瓜專利網。





