[發明專利]一種網絡爬蟲識別系統及方法有效
| 申請號: | 201110378160.6 | 申請日: | 2011-11-24 |
| 公開(公告)號: | CN102495861A | 公開(公告)日: | 2012-06-13 |
| 發明(設計)人: | 肖軍;張永錚;云曉春 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 梁揮;祁建國 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 爬蟲 識別 系統 方法 | ||
1.一種網絡爬蟲識別系統,其特征在于,包括:
緩沖模塊,用于保存進入系統的請求,在系統開始運行時,所述請求發送至訓練模塊,在訓練時間結束,該請求發送至識別模塊;
訓練模塊,用于將所述請求進行訓練以及學習相應的請求,進行可疑度運算;
識別模塊,用于分析提交至識別模塊的請求,識別爬蟲,記錄其源地址,依據源地址進行過濾,對來自爬蟲地址的數據進行丟棄;
轉發模塊,用于轉發訓練模塊以及識別模塊允許通過的請求。
2.如權利要求1所述的識別系統,其特征在于,所述訓練模塊還包括:
學習模塊,用于初始化參數,設定訓練時間閾值,收到不同請求,根據所述不同請求建立數據結構。
3.如權利要求2所述的識別系統,其特征在于,所述學習模塊收到的不同請求包括:新的請求會話、內嵌對象請求會話和/或歷史請求會話。
4.如權利要求2所述的識別系統,其特征在于,所述學習模塊,用于收到的不同請求時,根據當前時間,淘汰已經不活躍的會話,刪除相應數據結構。
5.如權利要求3所述的識別系統,其特征在于,所述學習模塊,用于收到歷史請求會話,找到對應會話的數據結構,記錄該請求會話的URL,為該請求會話的前一個請求的URL,與該請求會話的URL計數加1,進行可疑度運算。
6.如權利要求3所述的識別系統,其特征在于,所述學習模塊,用于收到內嵌對象請求會話,為該請求會話新建一個數據結構,并設該請求會話的第一個請求會話為空,同時空為該請求會話的第一個請求會話的計數加1,進行可疑度運算。
7.如權利要求3所述的識別系統,其特征在于,所述學習模塊,用于收到新的請求會話,為該會話建立相應的數據結構,并記錄該請求會話的URL,該請求會話作為會話的第一個請求的次數加1,進行可疑度運算。
8.如權利要求1、5、6或7所述的識別系統,其特征在于,還包括:
可疑度運算模塊,用于對會話的一個請求,設所有請求計數的最大值為M,那么對一個計數為X的請求,其可疑度為1-X/M;對一個請求URL,其所有后續請求URL計數的最大值為M,那么對一個請求計數為X的URL,其訪問請求轉換可疑度為1-X/M,通過所有頁面,作為會話第一個請求的計數,設所有請求的最大值為M,那么對一個計數為X的請求,其作為一個會話首請求的可疑度為1-X/M,其中M為最大化網頁頁面統計次數、X為單一網頁頁面統計次數。
9.如權利要求1所述的識別系統,其特征在于,所述識別模塊還包括:
過濾模塊,用于初始化參數:設定可疑判別閾值、可疑次數計數、可疑次數閾值,不活躍會話淘汰時間閾值,收到不同請求,根據所述不同請求建立數據結構。
10.如權利要求9所述的識別系統,其特征在于,所述過濾模塊收到的不同請求包括:新的請求會話、內嵌對象請求會話和/或歷史請求會話。
11.如權利要求9所述的識別系統,其特征在于,所述過濾模塊,用于收到不同請求,根據當前時間,淘汰已經停止的會話,刪除相應數據結構。
12.如權利要求10所述的識別系統,其特征在于,所述過濾模塊,還用于收到內嵌請求會話時,該請求來自一個新請求會話,為該會話新建數據結構,并設該會話的第一個請求URL為空,獲取首請求為空的異常度,如果異常度大于可疑判別閾值,可疑次數計數加1,根據當前時間,淘汰已經停止的會話,刪除相應數據結構。
13.如權利要求10所述的識別系統,其特征在于,所述過濾模塊,還用于收到新的請求會話,為該會話新建數據結構,并設該會話的第一個請求為當前請求,獲取該請求作為會話首請求的可疑度,如果可疑度大于可疑判別閾值,可疑次數計數加1,如果可疑次數計數大于可疑判別閾值,則認為該會話為爬蟲。
14.如權利要求10所述的識別系統,其特征在于,所述過濾模塊,還用于收到歷史請求會話時,獲取計算請求轉換可疑度,如果可疑度大于可疑判別閾值,可疑次數計數加1,如果可疑次數計數大于可疑判別閾值,則認為該會話為爬蟲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110378160.6/1.html,轉載請聲明來源鉆瓜專利網。





