[發(fā)明專利]一種采集網(wǎng)頁的方法及系統(tǒng)無效
| 申請?zhí)枺?/td> | 200610160748.3 | 申請日: | 2006-11-29 |
| 公開(公告)號: | CN101178713A | 公開(公告)日: | 2008-05-14 |
| 發(fā)明(設(shè)計)人: | 楊衛(wèi);文杰;王寧 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產(chǎn)權(quán)代理有限公司 | 代理人: | 宋松 |
| 地址: | 518044廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 采集 網(wǎng)頁 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及通信及網(wǎng)絡(luò)領(lǐng)域,特別是涉及一種采集網(wǎng)頁的方法及系統(tǒng)。
背景技術(shù)
爬蟲(也稱為crawler、spider或robot)是搜索引擎中負(fù)責(zé)數(shù)據(jù)采集的子系統(tǒng)。爬蟲采集的數(shù)據(jù)質(zhì)量的高低直接影響到搜索引擎的搜索結(jié)果的質(zhì)量。
爬蟲系統(tǒng)在第一次爬行時,按照一定的策略來決定哪些網(wǎng)頁先爬,哪些網(wǎng)頁后爬;之后不斷檢測已爬過的網(wǎng)頁是否被更新,并不斷采集新的URL。在爬蟲本輪爬行過程中,先爬行的網(wǎng)頁內(nèi)容(URL不變)可能已經(jīng)發(fā)生了變化,如果搜索引擎對過期的頁面進行索引,并作為某些關(guān)鍵字的搜索結(jié)果顯示給用戶,則用戶看到的網(wǎng)頁內(nèi)容與預(yù)期的頁面不符,會很大程度上影響用戶感受。例如:某個商店的熱門商品柜臺的頁面,商品頻繁地上架下架,如果爬蟲檢測更新速度不快的話,很可能用戶搜索mp3播放器得到的頁面卻顯示蛋糕。又如:用戶搜索XXX軟件,得到的頁面卻為空白頁。
爬蟲系統(tǒng)的爬行能力是有限的,而互聯(lián)網(wǎng)上的頁面相對來說是無限的。爬蟲在爬行新的網(wǎng)頁的同時,要重新爬行舊的網(wǎng)頁,以檢測該網(wǎng)頁是否被更新,并告知搜索引擎用新鮮的頁面代替不新鮮的頁面,維持整個網(wǎng)頁集合一定的新鮮度。
設(shè)爬行URL集合為S={e1,e2,e3,...,eN},含有N個URL,則單個URL的新鮮度(freshness)定義為:
URL集合S的新鮮度(freshness)定義為:
為了使網(wǎng)頁集合S的新鮮度最大化,即越接近1越好,現(xiàn)有技術(shù)提供了兩種采集網(wǎng)頁的方法。
現(xiàn)有技術(shù)一、固定更新法。即按照第一次采集網(wǎng)頁時的順序,依次檢測更新網(wǎng)頁內(nèi)容。
顯然,這種方法無異于重新爬行一遍互聯(lián)網(wǎng),每一輪所需爬行的網(wǎng)頁數(shù)量巨大,無法在一定時間內(nèi)全部檢測更新所有的網(wǎng)頁,進而使得網(wǎng)頁集合S的新鮮度較小,不能根據(jù)網(wǎng)頁的實際變化情況而變化。
現(xiàn)有技術(shù)二、隨機更新法。從已采集的網(wǎng)頁集合中隨機抽取URL來做檢測更新。
顯然,這種方法檢測更新的URL具有隨機性,不能維持整個網(wǎng)頁集合S的高新鮮度。
綜上所述,現(xiàn)有的采集網(wǎng)頁的方法不能保證網(wǎng)頁集合的高新鮮度。
發(fā)明內(nèi)容
本發(fā)明提供一種采集網(wǎng)頁的方法及系統(tǒng),用以解決現(xiàn)有的采集網(wǎng)頁的方法不能保證網(wǎng)頁集合的高新鮮度的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610160748.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





