[發明專利]網絡爬蟲識別方法和裝置有效

申請號：	201910957170.1	申請日：	2015-05-15
公開（公告）號：	CN110851680B	公開（公告）日：	2023-06-30
發明（設計）人：	周高明	申請（專利權）人：	阿里巴巴集團控股有限公司
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/955;G06F16/958
代理公司：	廣州鑄智知識產權代理有限公司 44886	代理人：	徐瑞紅
地址：	英屬開曼群島大開***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網絡爬蟲識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種網絡爬蟲識別方法，其特征在于，包括：

接收客戶端的連接信息，所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時間；

如果所述客戶端的連接信息在待驗證客戶端庫中，并且所述客戶端的連接信息在所述待驗證客戶端庫中存在的時間超過預設時長，則識別所述客戶端為網絡爬蟲，否則通過如下步驟識別所述客戶端是否為網絡爬蟲：

接收客戶端在網頁渲染完畢后發送的所述網頁的圖片和所述網頁的URL；判斷所述客戶端的連接信息和所述URL是否在待驗證客戶端庫中；若在所述待驗證客戶端庫中，則根據所述網頁的圖片的尺寸和所述URL獲取樣本圖片；判斷所述網頁的圖片與所述樣本圖片的相似度是否大于預設閾值；若大于所述預設閾值，則從所述待驗證客戶端庫中刪除所述網頁的URL；判斷所述待驗證客戶端庫中是否還存在所述客戶端對應的其他需要驗證的URL；若不存在其他需要驗證的URL，則識別所述客戶端為網絡爬蟲。

2.根據權利要求1所述的方法，其特征在于，所述識別所述客戶端為網絡爬蟲之后，還包括：

將所述客戶端的連接信息存入網絡爬蟲庫。

3.根據權利要求1所述的方法，其特征在于，所述接收客戶端的連接信息之后，還包括：

如果所述客戶端的連接信息不在待驗證客戶端庫中，將所述客戶端的連接信息和所述客戶端當前訪問的URL存入所述待驗證客戶端庫。

4.根據權利要求1所述的方法，其特征在于，所述接收客戶端的連接信息之后，還包括：

判斷所述客戶端的連接信息是否在網絡爬蟲庫中；

如果是，則識別所述客戶端為網絡爬蟲；

如果所述客戶端的連接信息不在所述網絡爬蟲庫中，則執行所述識別所述客戶端為網絡爬蟲的步驟。

5.一種網絡爬蟲識別裝置，其特征在于，包括：

接收模塊，用于接收客戶端的連接信息，所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時間；

識別模塊，用于當所述接收模塊接收的所述客戶端的連接信息在待驗證客戶端庫中，并且所述客戶端的連接信息在所述待驗證客戶端庫中存在的時間超過預設時長時，識別所述客戶端為網絡爬蟲，否則通過如下步驟識別所述客戶端是否為網絡爬蟲：

6.根據權利要求5所述的裝置，其特征在于，還包括：