[發明專利]一種基于爬蟲的自動化差異檢測方法及裝置有效
| 申請號: | 201310250701.6 | 申請日: | 2013-06-21 |
| 公開(公告)號: | CN103365967B | 公開(公告)日: | 2017-02-08 |
| 發明(設計)人: | 孫彬;吳甜甜;范桂群;黃始韜 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F11/34 |
| 代理公司: | 北京銘碩知識產權代理有限公司11286 | 代理人: | 羅延紅,王占杰 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 爬蟲 自動化 差異 檢測 方法 裝置 | ||
1.一種基于爬蟲的自動化差異檢測方法,所述方法包括:
獲取第一Web系統的第一初始統一資源定位符(URL)以及第二Web系統的第二初始URL;
基于爬蟲分別對第一初始URL和第二初始URL進行遍歷,以不斷抓取第一web系統下的第一頁面和第二web系統下的第二頁面,
其中,在遍歷過程中,執行以下處理:對抓取的第一頁面和相應的第二頁面進行渲染,分別產生第一網頁圖像和第二網頁圖像,對第一網頁圖像和第二網頁圖像進行相似性比較,當第一網頁圖像和第二網頁圖像不同時,產生差異頁面信息,并且將所述差異頁面信息存儲在差異頁面信息數據庫中。
2.如權利要求1所述的方法,其中,所述差異頁面信息包括指示所述第一網頁圖像與所述第二網頁圖像不同的圖像。
3.如權利要求2所述的方法,其中,所述差異頁面信息還包括與所述第一網頁圖像對應的第一網頁的URL和與所述第二網頁圖像對應的第二網頁的URL,和/或與所述第一網頁圖像對應的第一網頁和與所述第二網頁圖像對應的第二網頁。
4.如權利要求1所述的方法,其中,進行相似性比較的步驟包括:
將第一網頁圖像與相應的第二網頁圖像分別轉換為第一灰度圖像和第二灰度圖像;
逐個比較第一灰度圖像和第二灰度圖像中的每個像素;
如果第一灰度圖像和第二灰度圖像的不同像素數量超過預定閾值,則確定第一網頁圖像與相應的第二網頁圖像不同。
5.如權利要求4所述的方法,其中,使用第一灰度圖像中的與第二灰度圖像不同的像素來產生所述差異頁面信息。
6.如權利要求1所述的方法,其中,在所述遍歷過程中,跳過第一Web系統下的非本地URL和第二Web系統下的非本地URL。
7.如權利要求1所述的方法,其中,如果第一Web系統下的本地URL的后綴與第二Web系統下的相應的本地URL的后綴相同,則確定所述第一Web系統下的本地URL與所述第二Web系統下的相應的本地URL相同。
8.如權利要求7所述的方法,其中,在所述遍歷過程中,如果從第一頁面中提取的URL與從第二頁面中提取的相應的URL不相同,則跳過所述從第一頁面中提取的URL和所述從第二頁面中提取的相應的URL,并產生差異頁面信息,將差異頁面信息存儲在差異頁面信息數據庫中。
9.如權利要求8所述的方法,其中,所述差異頁面信息包括所述第一頁面的URL和所述第二頁面的URL,和/或所述第一頁面和所述第二頁面。
10.如權利要求1或8所述的方法,還包括,從差異頁面信息數據庫讀取差異頁面信息,根據所述差異頁面信息產生相應的報告。
11.一種基于爬蟲的自動化差異檢測裝置,所述裝置包括:
URL獲取單元,獲取第一Web系統的第一初始統一資源定位符(URL)以及第二Web系統的第二初始URL;
遍歷比較單元,基于爬蟲分別對第一初始URL和第二初始URL進行遍歷,以不斷抓取第一web系統下的第一頁面和第二web系統下的第二頁面,
其中,在遍歷過程中,執行以下處理:對抓取的第一頁面和相應的第二頁面進行渲染,分別產生第一網頁圖像和第二網頁圖像,對第一網頁圖像和第二網頁圖像進行相似性比較,當第一網頁圖像和第二網頁圖像不同時,產生差異頁面信息,并且將所述差異頁面信息存儲在差異頁面信息數據庫中。
12.如權利要求11所述的裝置,其中,所述差異頁面信息包括指示所述第一網頁圖像與所述第二網頁圖像不同的圖像。
13.如權利要求12所述的裝置,其中,所述差異頁面信息還包括與所述第一網頁圖像對應的第一網頁的URL和與所述第二網頁圖像對應的第二網頁的URL,和/或與所述第一網頁圖像對應的第一網頁和與所述第二網頁圖像對應的第二網頁。
14.如權利要求11所述的裝置,其中,遍歷比較單元還被配置為:
將第一網頁圖像與相應的第二網頁圖像分別轉換為第一灰度圖像和第二灰度圖像;
逐個比較第一灰度圖像和第二灰度圖像中的每個像素;
如果第一灰度圖像和第二灰度圖像的不同像素數量超過預定閾值,則確定第一網頁圖像與相應的第二網頁圖像不同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310250701.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種商務旅行車用車載冰箱
- 下一篇:封裝片沖壓模具





