[發明專利]一種網絡爬蟲識別系統及方法有效
| 申請號: | 201110378160.6 | 申請日: | 2011-11-24 |
| 公開(公告)號: | CN102495861A | 公開(公告)日: | 2012-06-13 |
| 發明(設計)人: | 肖軍;張永錚;云曉春 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 梁揮;祁建國 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 爬蟲 識別 系統 方法 | ||
技術領域
本發明涉及網絡安全檢測和控制領域,具體涉及一種網絡爬蟲識別系統及方法。
背景技術
網絡爬蟲是指自動提取網頁的程序,能夠按照一定的規則,自動抓取網站信息。當前對網絡爬蟲的檢測方法主要是基于閾值的方法,即計算一個IP地址訪問的次數,如果訪問次數超過了檢測閾值,則認定該IP地址采用網絡爬蟲獲取網站信息。
顯然,該方法具有檢測滯后時間長等不足。根據訪問次數的檢測方法,為了獲得降低檢測誤差,需要將檢測閾值設置的足夠大,以便于能夠準確區分爬蟲行為與正常訪問行為,由于檢測閾值較大,檢測滯后時間較長。
發明內容
為解決上述問題,本文提供了一種網絡爬蟲識別方法及系統。
與現有技術中已公開的方法相比,本發明具有如下目的:(1)識別迅速;(2)識別準確率高。
一種網絡爬蟲識別系統,其特征在于,包括:
緩沖模塊,用于保存進入系統的請求,在系統開始運行時,所述請求發送至訓練模塊,在訓練時間結束,該請求發送至識別模塊;
訓練模塊,用于將所述請求進行訓練以及學習相應的請求,進行可疑度運算;
識別模塊,用于分析提交至識別模塊的請求,識別爬蟲,記錄其源地址,依據源地址進行過濾,對來自爬蟲地址的數據進行丟棄;
轉發模塊,用于轉發訓練模塊以及識別模塊允許通過的請求。
所述的識別系統,其特征在于,所述訓練模塊還包括:
學習模塊,用于初始化參數,設定訓練時間閾值,收到不同請求,根據所述不同請求建立數據結構。
所述的識別系統,其特征在于,所述學習模塊收到的不同請求包括:新的請求會話、內嵌對象請求會話和/或歷史請求會話。
所述的識別系統,其特征在于,所述學習模塊,用于收到的不同請求時,根據當前時間,淘汰已經不活躍的會話,刪除相應數據結構。
所述的識別系統,其特征在于,所述學習模塊,用于收到歷史請求會話,找到對應會話的數據結構,記錄該請求會話的URL,為該請求會話的前一個請求的URL,與該請求會話的URL計數加1,進行可疑度運算。
所述的識別系統,其特征在于,所述學習模塊,用于收到內嵌對象請求會話,為該請求會話新建一個數據結構,并設該請求會話的第一個請求會話為空,同時空為該請求會話的第一個請求會話的計數加1,進行可疑度運算。
所述的識別系統,其特征在于,所述學習模塊,用于收到新的請求會話,為該會話建立相應的數據結構,并記錄該請求會話的URL,該請求會話作為會話的第一個請求的次數加1,進行可疑度運算。
所述的識別系統,其特征在于,還包括:
可疑度運算模塊,用于對會話的一個請求,設所有請求計數的最大值為M,那么對一個計數為X的請求,其可疑度為1-X/M;對一個請求URL,其所有后續請求URL計數的最大值為M,那么對一個請求計數為X的URL,其訪問請求轉換可疑度為1-X/M,通過所有頁面,作為會話第一個請求的計數,設所有請求的最大值為M,那么對一個計數為X的請求,其作為一個會話首請求的可疑度為1-X/M,其中M為最大化網頁頁面統計次數、X為單一網頁頁面統計次數。
所述的識別系統,其特征在于,所述識別模塊還包括:
過濾模塊,用于初始化參數:設定可疑判別閾值、可疑次數計數、可疑次數閾值,不活躍會話淘汰時間閾值,收到不同請求,根據所述不同請求建立數據結構。
所述的識別系統,其特征在于,所述過濾模塊收到的不同請求包括:新的請求會話、內嵌對象請求會話和/或歷史請求會話。
所述的識別系統,其特征在于,所述過濾模塊,用于收到不同請求,根據當前時間,淘汰已經停止的會話,刪除相應數據結構。
所述的識別系統,其特征在于,所述過濾模塊,還用于收到內嵌請求會話時,該請求來自一個新請求會話,為該會話新建數據結構,并設該會話的第一個請求URL為空,獲取首請求為空的異常度,如果異常度大于可疑判別閾值,可疑次數計數加1,根據當前時間,淘汰已經停止的會話,刪除相應數據結構。
所述的識別系統,其特征在于,所述過濾模塊,還用于收到新的請求會話,為該會話新建數據結構,并設該會話的第一個請求為當前請求,獲取該請求作為會話首請求的可疑度,如果可疑度大于可疑判別閾值,可疑次數計數加1,如果可疑次數計數大于可疑判別閾值,則認為該會話為爬蟲。
所述的識別系統,其特征在于,所述過濾模塊,還用于收到歷史請求會話時,獲取計算請求轉換可疑度,如果可疑度大于可疑判別閾值,可疑次數計數加1,如果可疑次數計數大于可疑判別閾值,則認為該會話為爬蟲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110378160.6/2.html,轉載請聲明來源鉆瓜專利網。





