[發明專利]具備頁面渲染功能的網絡爬蟲系統及其實現方法有效

申請號：	201010590806.2	申請日：	2010-12-10
公開（公告）號：	CN102054028A	公開（公告）日：	2011-05-11
發明（設計）人：	黃斌	申請（專利權）人：	黃斌
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	100083 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	具備頁面渲染功能網絡爬蟲系統及其實現方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及一種具備頁面渲染功能的網絡爬蟲系統，同時也涉及該網絡爬蟲系統實現頁面渲染功能的方法，屬于網絡資源搜索技術領域。

背景技術

據有關媒體報導，美國谷歌(google)公司在2010年10月6日推出了搜索結果可視預覽功能，允許用戶在搜索結果列表中直接以縮略圖的形式預覽每個頁面。據谷歌公司有關人士介紹，“有時用戶點擊一個搜索結果，卻發現出現的頁面與其想要的頁面相差甚遠。于是用戶只能點擊返回，再去點擊另一個搜索結果。這種體驗很差。我們試圖以提供預覽的方式避免這種情況的發生。”為此，用戶將在搜索結果右側看到一個放大鏡標志，點擊放大鏡就可以看到這個頁面的縮略圖預覽。用戶還可以向下滑動，查看所有搜索結果的預覽圖。

為了滿足搜索結果可視預覽的要求，谷歌公司將存儲幾十億個流行度較高的網頁的縮略圖。對于流行度較低的頁面，谷歌公司也通過技術手段在不到十分之一秒的時間內生成縮略圖。但是，滿足上述要求所付出的硬件成本和軟件成本都是巨大的。

目前還有一些別的技術手段可以實現頁面預覽功能，例如使用CGI程序，抓取瀏覽器的圖像區，利用瀏覽器的繪圖功能生成圖片。另外，在專利申請號為200910221416.5的中國發明專利申請中，公開了一種利用圖像分析對互聯網進行自動爬行的方法和裝置。對網頁組件進行視覺識別的示例性方法包括以下步驟：在網絡瀏覽器中渲染網頁以生成圖像，利用機器對圖像的至少一個部分進行視覺分析以檢測包含可能的網頁組件的區域。該示例性方法還包括步驟：自動確定檢測到的網頁組件的類型，并存儲該網頁組件類型和網頁部分的位置。

但是，現有技術中并沒有利用網絡爬蟲系統實現頁面預覽功能的解決方案。網絡爬蟲(Web?Crawler)又稱為網頁蜘蛛(Web?Spider)、網絡機器人(Web?Robot)，是按照一定的規則自動抓取互聯網信息的程序或者腳本組成的系統。它的工作過程可以簡述如下：從預先指定的初始URL集(也稱種子集)出發，從中選擇一個URL，獲得該URL所指向的頁面，再從這個已經訪問的頁面中解析出新的URL，并對這些剛剛提取的URL進行分析比較，判斷哪些URL還沒有被訪問過并將它們放入到等待訪問的隊列，再按照指定的策略從該等待訪問隊列取出下一個URL繼續訪問。如此重復，直到等待訪問隊列為空或滿足停止訪問條件，其過程與有向圖的遍歷非常相似。訪問的過程中，將該網頁的文本內容保存在搜索引擎的數據庫中進行分析處理。

在這些網絡爬蟲系統的運行過程中，普遍只將網頁的內容按網頁文件進行分析，抽取其中的內容。一些網絡爬蟲系統則更進一步，對這些內容進行簡單的處理，如加以語義標注等，方便搜索引擎進行整理排序。但是，這些網絡爬蟲系統普遍不具備頁面渲染的功能，因此并不能方便地實現搜索結果頁面預覽功能。

發明內容

本發明所要解決的首要技術問題是提供一種具備頁面渲染功能的網絡爬蟲系統。

本發明所要解決的另外一個技術問題是提供該網絡爬蟲系統實現頁面渲染功能的方法。

為實現上述的發明目的，本發明采用下述的技術方案：

一種具備頁面渲染功能的網絡爬蟲系統，其特征在于：

所述網絡爬蟲系統包括多個信息采集器、頁面分析器、URL過濾器、頁面過濾器、URL管理器、圖片生成器、URL庫和頁面庫；其中，

所述信息采集器位于所述網絡爬蟲系統的底層，與互聯網直接進行交互以獲取Web頁面，所述頁面分析器與所述信息采集器進行連接，一方面從頁面內容中解析出帶有鏈接標記的URL，交給所述URL過濾器解析；另一方面將頁面內容解析為文本格式，交給所述頁面過濾器處理；

所述URL過濾器對URL進行限定站點范圍和主題的過濾之后，存入URL庫中；所述頁面過濾器進行頁面內容的冗余檢測后，將檢測后的頁面存入頁面庫中；

所述圖片生成器連接所述URL庫，針對所述URL庫中存儲的URL生成頁面對應的圖片。

其中，所述信息采集器從信息源出發，通過http協議請求，下載Web頁面，所述頁面分析器分析頁面并提取鏈接，然后所述信息采集器再以迭代的方式訪問網絡。

所述信息采集器采用圖的遍歷算法搜索Web頁面。