[發明專利]一種爬蟲抓取的方法及其裝置有效
| 申請號: | 200810226245.0 | 申請日: | 2008-11-10 |
| 公開(公告)號: | CN101739427A | 公開(公告)日: | 2010-06-16 |
| 發明(設計)人: | 孫宏偉;胡珉;羅治國 | 申請(專利權)人: | 中國移動通信集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 魏杉 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 爬蟲 抓取 方法 及其 裝置 | ||
技術領域
本發明涉及互聯網信息搜索領域,尤其涉及一種爬蟲抓取的方法及其裝 置。
背景技術
搜索引擎是現今互聯網上廣為應用的一項技術,人們只需要輸入自己所需 要信息的部分關鍵字就可以通過搜索引擎找到大量與該關鍵字相關的信息,例 如百度、谷歌等搜索引擎。
搜索引擎的信息來源多種多樣,有些是通過競價廣告的形式由發起這項廣 告的廣告商向搜索引擎運營商支付廣告費,搜索引擎運營商在自己的搜索引擎 中刊登該廣告的簡要信息以及鏈接,而更多的非廣告信息,例如新聞、學術信 息等是需要搜索引擎運營商自己去尋找并抓取加入搜索引擎的,面對互聯網上 的海量信息,如何將大量搜索引擎運營商關心的信息從其它的無用信息中區分 出來,并分門別類地加入搜索引擎成為搜索引擎運營商亟需解決的問題。
爬蟲抓取技術的出現解決了上述問題,該技術能夠按照設定的條件將符合 該條件的信息從互聯網的海量信息中抓取出來。將爬蟲抓取技術應用于搜索引 擎可以有效地解決各種有效信息的抓取問題。爬蟲抓取技術在抓取信息時需要 遍歷網頁,在面對互聯網上的海量網頁時,遍歷所有網頁幾乎是很難辦到的, 即使辦到了,也需要耗費大量的時間和資源,使得爬蟲抓取到的信息時效性很 差。針對此缺陷,目前普遍采用的解決方法是利用爬蟲在一定數量、一定范圍 的網頁中抓取信息,這些網頁一般是事先通過統計得出的含有有用信息的概率 和數量都比較高的網頁。這樣,可以將該一定數量、一定范圍的網頁形成一個 搜索列表并記錄入爬蟲的搜索范圍,使爬蟲每隔固定的時間在該搜索列表上檢 索是否有新的信息頁鏈接,如果有則根據鏈接下載該信息頁,抽取該信息頁中 有用的信息。
上述根據固定時間間隔爬蟲抓取網頁信息的方式,在一定程度上縮短了每 次爬蟲抓取信息耗費的時間和資源,但在實際應用中,不同網頁的用戶關注度 不同,如果使用相同的頻率抓取用戶關注度高的網頁信息和用戶關注度低的網 頁信息,顯然對于用戶關注度高的網頁信息來說信息抓取頻率相對較低,從而 不能對用戶關注度高的網頁中的信息及時地抓取和更新,使得這類網頁中信息 的時效性差,即網頁中會存在一定數量的過期信息或無效信息,進而影響用戶 對搜索引擎的滿意度。
發明內容
本發明提供一種優化爬蟲抓取的方法及其裝置,用以解決現有爬蟲抓取技 術時效性差的問題。
本發明實施例通過如下技術方案實現:
本發明實施例提供了一種爬蟲抓取的方法,包括:
根據網頁在當前搜索結果中的排序或/和所述網頁被用戶點擊的順序,確定 所述網頁的當前權值;
根據所述網頁的當前權值以及歷史權值,確定所述網頁的結果權值;
當所述結果權值達到設定閾值時,重新抓取所述網頁中的信息,并初始化 所述網頁的歷史權值。
本發明實施例還提供了一種爬蟲抓取的裝置,包括:
當前權值確定單元,用于根據網頁在當前搜索結果中的排序或/和所述網頁 被用戶點擊的順序,確定所述網頁的當前權值;
結果權值確定單元,用于根據所述當前權值確定單元確定的當前權值以及 所述網頁的歷史權值,確定所述網頁的結果權值;
信息抓取單元,用于當所述結果權值確定單元確定的結果權值達到設定閾 值時,重新抓取所述網頁中的信息;
歷史權值初始化單元,用于當所述結果權值確定單元確定的結果權值達到 設定閾值時,初始化所述網頁的歷史權值。
通過上述技術方案,本發明實施例能夠根據網頁在當前搜索結果中的排序 或/和該網頁被用戶點擊的順序,確定網頁的當前權值,然后根據網頁的當前權 值以及歷史權值,確定該網頁的結果權值,當結果權值達到設定閾值時,重新 抓取該網頁中的信息。一般情況下,網頁在當前搜索結果中的排序或/和網頁被 用戶點擊的順序能很好地體現該網頁的用戶關注度,基于此,本發明實施例利 用網頁在當前搜索結果中的排序或/和網頁被用戶點擊的順序,影響爬蟲抓取該 網頁中信息的周期,根據該方案,對用戶關注度高的網頁可以縮短爬蟲抓取網 頁信息的周期,從而提高用戶關注度高的網頁中信息的抓取頻率,保證這類網 頁中的信息具有很好的時效性,提高用戶的使用感受。
附圖說明
圖1為本發明實施例中爬蟲抓取的第一流程圖;
圖2為本發明實施例中爬蟲抓取的第二流程圖;
圖3為本發明實施例中爬蟲抓取的第三流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司,未經中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810226245.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子產品外殼背膠快速加工裝置
- 下一篇:一種全自動壓帽機裝置





