[發明專利]網頁檢測方法和裝置在審
| 申請號: | 201510923931.3 | 申請日: | 2015-12-14 |
| 公開(公告)號: | CN106874299A | 公開(公告)日: | 2017-06-20 |
| 發明(設計)人: | 李新國 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司11240 | 代理人: | 韓建偉,張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 檢測 方法 裝置 | ||
技術領域
本申請涉及互聯網領域,具體而言,涉及一種網頁檢測方法和裝置。
背景技術
在互聯網領域,網站上的網頁會不斷更新,而網站更新量也是評價網站績效的一項重要指標。這里的網站更新量指的是在一定時間內網站更新的網頁的數量。在統計網站更新量的過程中,如何確定哪些網頁是網站在一定時間內更新的網頁是一個難以解決的問題。目前,通常是通過爬蟲程序爬取網站上的網頁,然后逐個網頁分析是否為更新的網頁。然而,如果要統計更新量的網站越大,每次爬取的網頁數就越多,而這些網頁中大部分不是更新的網頁,使得需要檢測的網頁數量大,導致更新網頁的檢測過程效率低。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本申請實施例提供了一種網頁檢測方法和裝置,以至少解決由于檢測的網頁數量大造成更新網頁的檢測過程效率低的技術問題。
根據本申請實施例的一個方面,提供了一種網頁檢測方法,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;爬取所述目標網頁的頁面內容,從所述頁面內容中解析出所述目標網頁的發布時間;判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。
進一步地,從所述多個被訪問網頁中確定出目標網頁包括:逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。
進一步地,逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁包括:對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源定位符的哈希值;將未查詢到的哈希值對應的網頁作為所述目標網頁。
進一步地,在爬取所述目標網頁的頁面內容之后,所述方法還包括:根據所述頁面內容判斷所述目標網頁是否為列表頁;在判斷出所述目標網頁是列表頁時,丟棄所述目標網頁。
進一步地,從所述頁面內容中解析出所述目標網頁的發布時間包括:按照所述目標網站配置的解析規則從所述頁面內容中解析出所述目標網頁的發布時間;或者,按照預先設置的解析規則從所述頁面內容中解析出所述目標網頁的發布時間。
根據本申請實施例的另一方面,還提供了一種網頁檢測裝置,包括:第一解析單元,用于對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;第一確定單元,用于從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;第二解析單元,用于爬取所述目標網頁的頁面內容,從所述頁面內容中解析出所述目標網頁的發布時間;第一判斷單元,用于判斷所述發布時間是否處于所述預設時間段內;以及第二確定單元,用于在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。
進一步地,所述第一確定單元具體用于逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。
進一步地,所述第一確定單元包括:編碼模塊,用于對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;查詢模塊,用于在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所 述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源定位符的哈希值;確定模塊,用于將未查詢到的哈希值對應的網頁作為所述目標網頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510923931.3/2.html,轉載請聲明來源鉆瓜專利網。





