[發明專利]頁面檢測方法及裝置有效
| 申請號: | 201310528389.2 | 申請日: | 2013-10-30 |
| 公開(公告)號: | CN104598458B | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 陸中振;黃達文;卓居超 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/955 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 蔣雅潔;張穎玲 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 檢測 方法 裝置 | ||
本發明公開一種頁面檢測方法及裝置,本發明實施例收集已在用戶操作界面上顯示的預設數量的網頁所對應的網址,并對已收集的網址進行排重處理;對排重處理后的網址進行死鏈失效頁檢測,獲取初步檢測為死鏈失效頁的網址;將初步檢測為死鏈失效頁的網址與預先建立的黑名單進行比對;若初步檢測為死鏈失效頁的網址命中所述黑名單中的站點,則判定命中所述黑名單中站點的網址為死鏈失效頁;具有提高死鏈失效頁檢測準確性的有益效果,降低了對死鏈失效頁檢測的誤判率。
技術領域
本發明涉及互聯網技術,尤其涉及一種對死鏈失效頁的頁面檢測方法及裝置。
背景技術
由于網絡頁面具有較強的時效性,因此在搜索引擎收錄的大量網頁中難免會存在一定數量的死鏈失效頁。目前,對死鏈失效頁的檢測方法主要是利用一些檢測工具對抓取的相應站點的網頁鏈接進行檢測;檢測系統根據網頁鏈接的返回信息,并結合對網頁內容的分析結果,識別檢測的網頁鏈接是否為死鏈失效頁。
這種方式針對單個或者極少量的網頁鏈接的檢測,準確性較高;但對于大批量的網頁,上述檢測系統將面臨較高的站點壓力和站點封禁等問題,采用上述檢測方式得出的死鏈失效頁的誤判率很高。
發明內容
鑒于此,有必要提供一種針對死鏈失效頁的頁面檢測方法及裝置,以降低對死鏈失效頁檢測的誤判率。
本發明實施例公開了一種頁面檢測方法,包括以下步驟:
收集已在用戶操作界面上顯示的預設數量的網頁所對應的網址,并對已收集的網址進行排重處理;
對排重處理后的網址進行死鏈失效頁檢測,獲取初步檢測為死鏈失效頁的網址;
將初步檢測為死鏈失效頁的網址與預先建立的黑名單進行比對;
若初步檢測為死鏈失效頁的網址命中所述黑名單中的站點,則判定命中所述黑名單中站點的網址為死鏈失效頁。
本發明實施例還公開一種頁面檢測裝置,包括:
數據收集模塊,用于收集已在用戶操作界面上顯示的預設數量的網頁所對應的網址,并對已收集的網址進行排重處理;
頁面初檢模塊,用于對排重處理后的網址進行死鏈失效頁檢測,獲取初步檢測為死鏈失效頁的網址;
頁面判定模塊,用于將初步檢測為死鏈失效頁的網址與預先建立的黑名單進行比對;若初步檢測為死鏈失效頁的網址命中所述黑名單中的站點,則判定命中所述黑名單中站點的網址為死鏈失效頁。
本發明實施例收集已在用戶操作界面上顯示的預設數量的網頁所對應的網址,并對已收集的網址進行排重處理;對排重處理后的網址進行死鏈失效頁檢測,獲取初步檢測為死鏈失效頁的網址;將初步檢測為死鏈失效頁的網址與預先建立的黑名單進行比對;若初步檢測為死鏈失效頁的網址命中所述黑名單中的站點,則判定命中所述黑名單中站點的網址為死鏈失效頁;與現有技術中直接將系統檢測出的死鏈失效頁判定為真正的死鏈失效頁的方法,本發明實施例具有提高死鏈失效頁檢測準確性的有益效果,降低了對死鏈失效頁檢測的誤判率。
附圖說明
圖1是本發明頁面檢測方法第一實施例流程示意圖;
圖2是本發明頁面檢測方法中,收集進行頁面檢測的網址一實施例流程示意圖;
圖3是本發明頁面檢測方法第二實施例流程示意圖;
圖4是本發明頁面檢測方法中,建立黑名單與被封名單一實施例流程示意圖;
圖5是本發明頁面檢測裝置第一實施例功能模塊示意圖;
圖6是本發明頁面檢測裝置第二實施例功能模塊示意圖;
圖7是本發明頁面檢測裝置第三實施例功能模塊示意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310528389.2/2.html,轉載請聲明來源鉆瓜專利網。





