[發明專利]一種網站監測的方法及裝置在審
| 申請號: | 202010731482.3 | 申請日: | 2020-07-27 |
| 公開(公告)號: | CN111898013A | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 張龍;王萌;黑巖;劉鑫;王向前 | 申請(專利權)人: | 綠盟科技集團股份有限公司;北京神州綠盟科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;H04L29/08 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 劉亞威 |
| 地址: | 100089 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網站 監測 方法 裝置 | ||
1.一種網站監測的方法,其特征在于,包括:
獲取待監測網站的網頁;所述網頁是通過網絡爬蟲爬取和/或搜索引擎收錄得到的;
根據網絡爬蟲的爬取深度和/或搜索引擎收錄的網頁更新時間確定出各網頁的關鍵指數;
根據所述各網頁的關鍵指數確定出所述各網頁的關鍵度,并進行排序;將排序后的各網頁放入預設層數的待監測網頁金字塔;所述待監測網頁金字塔中每一層放入網頁的數量是由預設指數函數確定的;
根據預設的基準監測周期,確定出所述待監測網頁金字塔中各層的監測周期以及各層的監測周期對應的監測網頁數量;
根據所述待監測網頁金字塔中各層的監測周期以及各層的監測周期對應的監測網頁數量,通過滑動監測網頁的方式對所述待監測網頁金字塔中各層的網頁進行監測。
2.如權利要求1所述的方法,其特征在于,所述根據網絡爬蟲的爬取深度和/或搜索引擎收錄的網頁更新時間確定出各網頁的關鍵指數,包括:
根據網絡爬蟲的廣度優先方法的爬取深度,確定出所述各網頁中的父頁面與子頁面的關系;并根據所述各網頁中父頁面與子頁面的關系確定出所述各網頁的第一關鍵指數;所述父頁面的第一關鍵指數與第一預設值的和為所述子頁面的第一關鍵指數;和/或
根據所述各網頁在所述搜索引擎中收錄的網頁更新時間,得到所述各網頁的網頁更新時間距離當前時間的時間差,并根據所述時間差確定出所述各網頁的第二關鍵指數;
對所述各網頁的第一關鍵指數和所述各網頁的第二關鍵指數進行去重得到所述各網頁的關鍵指數。
3.如權利要求2所述的方法,其特征在于,所述對所述各網頁的第一關鍵指數和所述各網頁的第二關鍵指數進行去重得到所述各網頁的關鍵指數,包括:
若網頁存在所述第一關鍵指數和所述第二關鍵指數,則判斷所述第一關鍵指數是否大于所述第二關鍵指數,若是,則將所述第一關鍵指數確定為所述網頁的關鍵指數,否則將所述第二關鍵指數確定為所述網頁的關鍵指數;
若網頁存在所述第一關鍵指數或所述第二關鍵指數,則將所述第一關鍵指數或所述第二關鍵指數確定為所述網頁的關鍵指數。
4.如權利要求1所述的方法,其特征在于,所述根據所述各網頁的關鍵指數確定出所述各網頁的關鍵度,并進行排序,包括:
將所述各網頁的關鍵指數的倒數確定為所述各網頁的關鍵度;
根據所述各網頁的關鍵度的大小,將所述各網頁按照所述關鍵度從大到小的順序進行排序。
5.如權利要求1所述的方法,其特征在于,所述由預設指數函數確定所述待監測網頁金字塔中每一層放入網頁的數量,包括:
根據所述待監測網站的網頁的總數量以及所述待監測網頁金字塔可存放網頁的第二預設值數量確定出所述網站的規模系數;
根據所述規模系數和預設指數函數確定出所述待監測網頁金字塔中每一層放入網頁的數量。
6.如權利要求1所述的方法,其特征在于,所述確定出所述待監測網頁金字塔中各層的監測周期以及各層的監測周期對應的監測網頁數量,包括:
根據所述預設的基準監測周期和所述預設的指數函數確定出所述待監測網頁金字塔中各層的監測周期;
根據所述待監測網頁金字塔的層數和所述預設的指數函數確定出所述各層的監測周期對應的監測網頁數量。
7.如權利要求1所述的方法,其特征在于,所述根據所述待監測網頁金字塔中各層的監測周期以及各層的監測周期對應的監測網頁數量,通過滑動監測網頁的方式對所述待監測網頁金字塔中各層的網頁進行監測,包括:
確定所述待監測網頁金字塔中各層的每監測周期滑動的網頁的數量;
依據所述各層的每監測周期滑動的網頁的數量以及各層的監測周期對應的監測網頁的數量從所述待監測網頁金字塔中各層選取網頁進行監測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于綠盟科技集團股份有限公司;北京神州綠盟科技有限公司,未經綠盟科技集團股份有限公司;北京神州綠盟科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010731482.3/1.html,轉載請聲明來源鉆瓜專利網。





