[發明專利]爬蟲種子獲取方法與設備及爬蟲爬取方法與設備有效

申請號：	201110232595.X	申請日：	2011-08-15
公開（公告）號：	CN102355488A	公開（公告）日：	2012-02-15
發明（設計）人：	吳濱華;王祖海	申請（專利權）人：	北京星網銳捷網絡技術有限公司
主分類號：	H04L29/08	分類號：	H04L29/08;G06F17/30
代理公司：	北京同立鈞成知識產權代理有限公司 11205	代理人：	李勇
地址：	100036 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	爬蟲種子獲取方法設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及搜索引擎技術，尤其涉及一種爬蟲種子獲取方法與設備及爬蟲爬取方法及設備。

背景技術

搜索引擎(search?engine)是指根據一定的策略、運用特定的計算機程序從因特網(Internet)上搜集信息，在對信息進行組織和處理后，為用戶提供檢索服務，將與用戶相關的檢索結果展示給用戶的系統。

目前，網頁的抓取策略可以分為深度優先、廣度優先和最佳優先三種。其中，深度優先在很多情況下會導致爬蟲的陷入(trapped)問題，目前常見的是廣度優先和最佳優先方法。廣度優先搜索策略是指在抓取過程中，在完成當前層次的搜索后，才進行下一層次的搜索。該算法的設計和實現相對簡單，廣度優先搜索方法能夠覆蓋盡可能多的網頁。目前也有很多研究將廣度優先搜索策略應用于聚焦爬蟲(聚焦爬蟲是“面向特定主題”的一種網絡爬蟲程序)中，其基本思想是認為與初始統一資源定位符(Universal?Resource?Locator；簡稱為：URL)在一定鏈接距離內的網頁具有主題相關性的概率很大。另外一種方法是將廣度優先搜索與網頁過濾技術結合使用，先用廣度優先策略抓取網頁，再將其中無關的網頁過濾掉。最佳優先搜索策略按照一定的網頁分析算法，預測候選URL與目標網頁的相似度，或與主題的相關性，并選取評價最好的一個或幾個URL進行抓取。最佳優先搜索策略只訪問經過網頁分析算法預測為“有用”的網頁，因此最佳優先策略是一種局部最優搜索算法。

網絡爬蟲是搜索引擎的信息爬取器。爬蟲種子是網絡爬蟲初始化爬取的URL或者URL集合。其中，URL是用于完整描述Internet上網頁和其他資源的地址的一種標識方法，Internet上的每一個網頁都具有一個唯一的名稱標識，通常稱之為URL地址，這種URL地址可以是本地磁盤，也可以是局域網上的某一臺計算機，簡單的說，URL就是Web地址，俗稱“網址”。在現有技術中，爬蟲種子是由人工預先分配給網絡爬蟲的。爬蟲種子是網絡爬蟲后續爬取URL的信息來源。具體的，網絡爬蟲把爬蟲種子頁面中包含的其他URL地址提取出來，放入待爬取URL隊列，作為后續爬取的對象；隨著爬取的URL數量的增加，爬蟲種子也就不斷變化和擴大。

現有技術中，由于爬蟲種子通常是由人工預先指定的若干個URL，對爬蟲種子的篩選構建沒有體系化的策略或者方案，這就導致了在全網搜索的情況下，需要較長的時間(通常為半年或者1年)才能夠獲取到大量主流URL，而且由于爬蟲種子數量有限所形成的主流URL的覆蓋性也較差，對需要快速實現全網主流數據搜索的爬蟲系統來說，時間成本巨大，不易于部署實施。

發明內容

本發明實施例提供一種爬蟲種子獲取方法與設備及爬蟲爬去方法與設備，用以提供大量的、離散度大的爬蟲種子，從而縮短形成主流URL的時間，提高主流URL的覆蓋性，降低爬蟲系統進行爬取時的時間成本。

本發明提供一種爬蟲種子獲取方法，包括：

根據預設檢索詞詞典和目標導航網站的統一資源定位符URL特性，構造動態頁面請求；

將所述動態頁面請求發送給所述目標導航網站的服務器；

根據預設提取策略，從所述服務器根據所述動態頁面請求返回的檢索結果頁面中提取目標URL，所述目標URL為所述檢索結果頁面中的URL的主域名地址；

對所述目標URL進行唯一化處理，獲取唯一化目標URL，將所述唯一化目標URL作為爬蟲種子。

本發明提供一種使用本發明提供的爬蟲種子獲取方法獲取的爬蟲種子的爬蟲爬取方法，包括：

當內存空間中的種子隊列中存在所述爬蟲種子時，從所述種子隊列中獲取一個爬蟲種子進行爬取，并將根據所述爬蟲種子爬取到的頁面中的URL添加到所述內存空間的待爬取隊列中，并將爬取過的爬蟲種子從所述種子隊列中刪除；

當所述種子隊列中不存在所述爬蟲種子，而所述待爬取隊列中存在待爬取URL時，從所述待爬取隊列中獲取一個待爬取URL進行爬取，并將根據所獲取的待爬取URL爬取到的頁面中的URL添加到所述待爬取隊列中，并將已爬取的URL從所述待爬取隊列中刪除。

本發明提供一種爬蟲種子獲取設備，包括：

構造模塊，用于根據預設檢索詞詞典和目標導航網站的統一資源定位符URL特性，構造動態頁面請求；