[發明專利]一種網絡爬蟲識別系統及方法有效

申請號：	201110378160.6	申請日：	2011-11-24
公開（公告）號：	CN102495861A	公開（公告）日：	2012-06-13
發明（設計）人：	肖軍;張永錚;云曉春	申請（專利權）人：	中國科學院計算技術研究所
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京律誠同業知識產權代理有限公司 11006	代理人：	梁揮;祁建國
地址：	100080 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種網絡爬蟲識別系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及網絡安全檢測和控制領域，具體涉及一種網絡爬蟲識別系統及方法。

背景技術

網絡爬蟲是指自動提取網頁的程序，能夠按照一定的規則，自動抓取網站信息。當前對網絡爬蟲的檢測方法主要是基于閾值的方法，即計算一個IP地址訪問的次數，如果訪問次數超過了檢測閾值，則認定該IP地址采用網絡爬蟲獲取網站信息。

顯然，該方法具有檢測滯后時間長等不足。根據訪問次數的檢測方法，為了獲得降低檢測誤差，需要將檢測閾值設置的足夠大，以便于能夠準確區分爬蟲行為與正常訪問行為，由于檢測閾值較大，檢測滯后時間較長。

發明內容

為解決上述問題，本文提供了一種網絡爬蟲識別方法及系統。

與現有技術中已公開的方法相比，本發明具有如下目的：(1)識別迅速；(2)識別準確率高。

一種網絡爬蟲識別系統，其特征在于，包括：

緩沖模塊，用于保存進入系統的請求，在系統開始運行時，所述請求發送至訓練模塊，在訓練時間結束，該請求發送至識別模塊；

訓練模塊，用于將所述請求進行訓練以及學習相應的請求，進行可疑度運算；

識別模塊，用于分析提交至識別模塊的請求，識別爬蟲，記錄其源地址，依據源地址進行過濾，對來自爬蟲地址的數據進行丟棄；

轉發模塊，用于轉發訓練模塊以及識別模塊允許通過的請求。

所述的識別系統，其特征在于，所述訓練模塊還包括：

學習模塊，用于初始化參數，設定訓練時間閾值，收到不同請求，根據所述不同請求建立數據結構。

所述的識別系統，其特征在于，所述學習模塊收到的不同請求包括：新的請求會話、內嵌對象請求會話和/或歷史請求會話。

所述的識別系統，其特征在于，所述學習模塊，用于收到的不同請求時，根據當前時間，淘汰已經不活躍的會話，刪除相應數據結構。

所述的識別系統，其特征在于，所述學習模塊，用于收到歷史請求會話，找到對應會話的數據結構，記錄該請求會話的URL，為該請求會話的前一個請求的URL，與該請求會話的URL計數加1，進行可疑度運算。

所述的識別系統，其特征在于，所述學習模塊，用于收到內嵌對象請求會話，為該請求會話新建一個數據結構，并設該請求會話的第一個請求會話為空，同時空為該請求會話的第一個請求會話的計數加1，進行可疑度運算。

所述的識別系統，其特征在于，所述學習模塊，用于收到新的請求會話，為該會話建立相應的數據結構，并記錄該請求會話的URL，該請求會話作為會話的第一個請求的次數加1，進行可疑度運算。

所述的識別系統，其特征在于，還包括：

可疑度運算模塊，用于對會話的一個請求，設所有請求計數的最大值為M，那么對一個計數為X的請求，其可疑度為1-X/M；對一個請求URL，其所有后續請求URL計數的最大值為M，那么對一個請求計數為X的URL，其訪問請求轉換可疑度為1-X/M，通過所有頁面，作為會話第一個請求的計數，設所有請求的最大值為M，那么對一個計數為X的請求，其作為一個會話首請求的可疑度為1-X/M，其中M為最大化網頁頁面統計次數、X為單一網頁頁面統計次數。

所述的識別系統，其特征在于，所述識別模塊還包括：

過濾模塊，用于初始化參數：設定可疑判別閾值、可疑次數計數、可疑次數閾值，不活躍會話淘汰時間閾值，收到不同請求，根據所述不同請求建立數據結構。

所述的識別系統，其特征在于，所述過濾模塊收到的不同請求包括：新的請求會話、內嵌對象請求會話和/或歷史請求會話。

所述的識別系統，其特征在于，所述過濾模塊，用于收到不同請求，根據當前時間，淘汰已經停止的會話，刪除相應數據結構。

所述的識別系統，其特征在于，所述過濾模塊，還用于收到內嵌請求會話時，該請求來自一個新請求會話，為該會話新建數據結構，并設該會話的第一個請求URL為空，獲取首請求為空的異常度，如果異常度大于可疑判別閾值，可疑次數計數加1，根據當前時間，淘汰已經停止的會話，刪除相應數據結構。

所述的識別系統，其特征在于，所述過濾模塊，還用于收到新的請求會話，為該會話新建數據結構，并設該會話的第一個請求為當前請求，獲取該請求作為會話首請求的可疑度，如果可疑度大于可疑判別閾值，可疑次數計數加1，如果可疑次數計數大于可疑判別閾值，則認為該會話為爬蟲。

所述的識別系統，其特征在于，所述過濾模塊，還用于收到歷史請求會話時，獲取計算請求轉換可疑度，如果可疑度大于可疑判別閾值，可疑次數計數加1，如果可疑次數計數大于可疑判別閾值，則認為該會話為爬蟲。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所，未經中國科學院計算技術研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110378160.6/2.html，轉載請聲明來源鉆瓜專利網。