[發(fā)明專利]一種采集網(wǎng)頁的方法及系統(tǒng)無效

申請?zhí)枺?/td>	200610160748.3	申請日：	2006-11-29
公開（公告）號：	CN101178713A	公開（公告）日：	2008-05-14
發(fā)明（設(shè)計）人：	楊衛(wèi);文杰;王寧	申請（專利權(quán)）人：	騰訊科技（深圳）有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京同達信恒知識產(chǎn)權(quán)代理有限公司	代理人：	宋松
地址：	518044廣東省深圳市***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種采集網(wǎng)頁方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明涉及通信及網(wǎng)絡(luò)領(lǐng)域，特別是涉及一種采集網(wǎng)頁的方法及系統(tǒng)。

背景技術(shù)

爬蟲(也稱為crawler、spider或robot)是搜索引擎中負(fù)責(zé)數(shù)據(jù)采集的子系統(tǒng)。爬蟲采集的數(shù)據(jù)質(zhì)量的高低直接影響到搜索引擎的搜索結(jié)果的質(zhì)量。

爬蟲系統(tǒng)在第一次爬行時，按照一定的策略來決定哪些網(wǎng)頁先爬，哪些網(wǎng)頁后爬；之后不斷檢測已爬過的網(wǎng)頁是否被更新，并不斷采集新的URL。在爬蟲本輪爬行過程中，先爬行的網(wǎng)頁內(nèi)容(URL不變)可能已經(jīng)發(fā)生了變化，如果搜索引擎對過期的頁面進行索引，并作為某些關(guān)鍵字的搜索結(jié)果顯示給用戶，則用戶看到的網(wǎng)頁內(nèi)容與預(yù)期的頁面不符，會很大程度上影響用戶感受。例如：某個商店的熱門商品柜臺的頁面，商品頻繁地上架下架，如果爬蟲檢測更新速度不快的話，很可能用戶搜索mp3播放器得到的頁面卻顯示蛋糕。又如：用戶搜索XXX軟件，得到的頁面卻為空白頁。

爬蟲系統(tǒng)的爬行能力是有限的，而互聯(lián)網(wǎng)上的頁面相對來說是無限的。爬蟲在爬行新的網(wǎng)頁的同時，要重新爬行舊的網(wǎng)頁，以檢測該網(wǎng)頁是否被更新，并告知搜索引擎用新鮮的頁面代替不新鮮的頁面，維持整個網(wǎng)頁集合一定的新鮮度。

設(shè)爬行URL集合為S＝{e₁，e₂，e₃，...，e_N}，含有N個URL，則單個URL的新鮮度(freshness)定義為：F(ei;t)=1,ifeiisuptodateattimet0,otherwise]]>

URL集合S的新鮮度(freshness)定義為：F(S;t)=1NΣi=1NF(ei;t)]]>

為了使網(wǎng)頁集合S的新鮮度最大化，即越接近1越好，現(xiàn)有技術(shù)提供了兩種采集網(wǎng)頁的方法。

現(xiàn)有技術(shù)一、固定更新法。即按照第一次采集網(wǎng)頁時的順序，依次檢測更新網(wǎng)頁內(nèi)容。

顯然，這種方法無異于重新爬行一遍互聯(lián)網(wǎng)，每一輪所需爬行的網(wǎng)頁數(shù)量巨大，無法在一定時間內(nèi)全部檢測更新所有的網(wǎng)頁，進而使得網(wǎng)頁集合S的新鮮度較小，不能根據(jù)網(wǎng)頁的實際變化情況而變化。

現(xiàn)有技術(shù)二、隨機更新法。從已采集的網(wǎng)頁集合中隨機抽取URL來做檢測更新。

顯然，這種方法檢測更新的URL具有隨機性，不能維持整個網(wǎng)頁集合S的高新鮮度。

綜上所述，現(xiàn)有的采集網(wǎng)頁的方法不能保證網(wǎng)頁集合的高新鮮度。

發(fā)明內(nèi)容

本發(fā)明提供一種采集網(wǎng)頁的方法及系統(tǒng)，用以解決現(xiàn)有的采集網(wǎng)頁的方法不能保證網(wǎng)頁集合的高新鮮度的問題。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200610160748.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種外動力源多工位焊接夾具
下一篇：GIS系統(tǒng)與拼接墻系統(tǒng)結(jié)合的方法及其裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】