[發明專利]檢測網頁更新的方法及裝置有效
| 申請號: | 201410709349.2 | 申請日: | 2014-11-27 |
| 公開(公告)號: | CN104391953B | 公開(公告)日: | 2017-12-19 |
| 發明(設計)人: | 馮鴛鶴 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司11240 | 代理人: | 李志剛,吳貴明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢測 網頁 更新 方法 裝置 | ||
技術領域
本發明涉及互聯網領域,具體而言,涉及一種檢測網頁更新的方法及裝置。
背景技術
網站的內容更新量主要是指網站最新發布或者添加的網頁數量,其對于網站優化來說是一個重要的參考指標。目前,很多網站都具備用戶行為數據統計功能,換言之,一個網站的用戶的行為數據對該網站來說是完備的,而且是有大量歷史積累的。網站通常會對用戶行為數據進行實時統計。與此同時,鑒于一個網站的內容更新數據的重要性,網站又不得不進行網站內容更新量的統計。這種做法通常會給網站運行帶來以下的不利影響:
1、增加網站的運營成本。
2、增加網頁加載負擔或網站運行負擔,影響網站的用戶交互。
不管是使用什么方式進行網站內容更新量的統計,都會增加頁面加載的負擔或者網站運行的負擔。例如,采用爬蟲爬取的辦法會占用服務器帶寬;采用檢測服務器文件夾的辦法會增加服務器硬件運行成本;采用頁面腳本文件(例如JavaScript)檢測的辦法會增加網頁每次的加載時間。
3、降低網站的安全性。
安全性的降低主要是由于對外部的依賴關系增多引起的,其中任何一個依賴因素出現異常都可能導致網站不能正常顯示。
針對相關技術中在對網頁更新情況進行檢測時消耗負載比較大的問題,目前尚未提出有效的解決方案。
發明內容
本發明的主要目的在于提供一種檢測網頁更新的方法及裝置,以解決對網頁更新量進行檢測時消耗負載比較大的問題。
為了實現上述目的,根據本發明的一個方面,提供了一種檢測網頁更新的方法。
根據本發明的檢測網頁更新的方法包括:獲取待檢測網站的歷史訪問記錄,其中,歷史訪問記錄包括待檢測網站內被訪問過的網頁的訪問記錄;根據歷史訪問記錄確定待檢測網站內的歷史訪問網頁;獲取待檢測網站的當前訪問記錄;根據待檢測網站的當前訪問記錄獲取待檢測網站內的當前訪問網頁;判斷當前訪問網頁是否出現在歷史訪問網頁中;如果當前訪問網頁出現在歷史訪問網頁中,則確定當前訪問網頁不是新增網頁;如果當前訪問網頁沒有出現在歷史訪問網頁中,則確定當前訪問網頁是新增網頁。
進一步地,在判斷當前訪問網頁是否出現在歷史訪問網頁中之前,該方法還包括:獲取當前訪問網頁的網頁名稱;獲取當前訪問網頁的網頁名稱對應的數值;判斷當前訪問網頁的網頁名稱對應的數值是否大于預設比較值,其中,如果當前訪問網頁的網頁名稱對應的數值不大于預設比較值,則確定當前訪問網頁不是新增網頁,如果當前訪問網頁的網頁名稱對應的數值大于預設比較值,則判斷當前訪問網頁是否出現在歷史訪問網頁中。
進一步地,在獲取待檢測網站的當前訪問記錄之前,該方法還包括:分別獲取歷史訪問網頁的網頁名稱對應的數值,通過以下方法確定預設比較值:比較歷史訪問網頁的網頁名稱對應的數值;獲取歷史訪問網頁的網頁名稱對應的數值中的最大值;確定最大值為預設比較值。
進一步地,在確定當前訪問網頁是新增網頁之后,該方法還包括:確定當前訪問網頁的網頁名稱對應的數值為預設比較值,或者確定預設時間間隔;經過預設時間間隔之后,獲取當前時間之前的歷史訪問網頁的網頁名稱對應的數值;獲取當前時間之前的歷史訪問網頁的網頁名稱對應的數值的最大值;確定當前時間之前的歷史訪問網頁的網頁名稱對應的數值的最大值為預設比較值。
進一步地,判斷當前訪問網頁是否出現在歷史訪問網頁中包括:獲取目標路徑值,其中,目標路徑值為當前訪問網頁的統一資源定位符中包含的路徑值;獲取路徑值集合,其中,路徑值集合包括歷史訪問網頁的統一資源定位符中包含的路徑值;判斷目標路徑值是否出現在路徑值集合中,其中,如果目標路徑值出現在路徑值集合中,則確定當前訪問網頁不是新增網頁,如果目標路徑值沒有出現在路徑值集合中,則確定當前訪問網頁是新增網頁。
進一步地,在確定當前訪問網頁是新增網頁之后,該方法還包括:統計新增網頁的數量;添加當前訪問記錄到歷史訪問記錄中。
為了實現上述目的,根據本發明的另一方面,提供了一種檢測網頁更新的裝置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410709349.2/2.html,轉載請聲明來源鉆瓜專利網。





