[發明專利]一種基于訪問日志IP分析的網絡爬蟲檢測方法在審
| 申請號: | 201811403690.X | 申請日: | 2018-11-23 |
| 公開(公告)號: | CN109657119A | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 仲俊霖 | 申請(專利權)人: | 成都知道創宇信息技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 成都信博專利代理有限責任公司 51200 | 代理人: | 卓仲陽 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 檢測 訪問日志 網絡爬蟲 檢測法 訪問請求數據包 參數控制 動態資源 訪問行為 靜態資源 輸出判定 特征檢測 網站接口 訪問量 誤報率 種檢測 分析 覆蓋 訪問 | ||
本發明公開了一種基于訪問日志IP分析的網絡爬蟲檢測方法,具體步驟是:使用特征檢測法檢測訪問請求數據包中的特征來判斷是否為普通爬蟲;使用訪問行為檢測法檢測IP訪問靜態資源和動態資源的比例來判斷該IP是否為高級爬蟲;使用特殊爬蟲檢測法檢測網站接口的訪問量來判斷是否為爬蟲;輸出判定結果;本發明通過三種檢測方法對IP進行識別,可以覆蓋普通爬蟲、高級爬蟲和特殊爬蟲,能夠從更大范圍內進行有效爬蟲識別,在檢測過程中還可以通過調節參數控制誤報率,更加符合實際工作需要。
技術領域
本發明涉及網絡爬蟲檢測領域,具體涉及一種基于訪問日志IP分析的網絡爬蟲檢測方法。
背景技術
隨著互聯網的發展,越來越多的行業開始通過網站的形式向廣大網民展示其主營的各項業務和數據,而網絡爬蟲則可以自動的獲取這些數據,從而爬蟲所有者可以通過這些數據獲利,例如有的人通過編寫爬蟲程序爬取電商網站的商品信息,從這些數據中可以獲取到每個商品的價格,而作為競爭對手可以以此價格為參考,適當降低自己商場的同款商品的價格,從而保持銷售優勢。又或者對于一些權威信息,如企業信用信息查詢,這些數據只能通過政府網站進行查詢,而爬蟲編寫者可以通過網絡爬蟲批量獲取數據,然后將這些數據轉賣給需要這些信息的人從而獲利。
目前常用的反爬蟲手段是通過訪問頻率來對爬蟲IP進行封鎖。首先設置一個訪問閾值,當某個IP的訪問頻率超過閾值則攔截此IP的訪問請求。
這種方法對于普通爬蟲來說可以起到很好的攔截效果,但是對于高級爬蟲則并不能有效進行攔截。爬蟲可以通過降低訪問頻率、增加IP數量等方式繞過檢測。而且這種方法還容易產生誤攔截,如公司出口IP、小區出口IP等,一個IP并不一定代表唯一一個正常用戶,有時候一個IP可能有幾百個用戶在使用,如果單通過訪問頻率來識別則有可能會對正常用戶進行誤攔截。
術語定義:
網絡爬蟲:又稱為網頁蜘蛛,網絡機器人,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。網絡爬蟲被廣泛應用于搜索引擎或用來爬取特定網站內容。
訪問日志:即網站用戶訪問記錄,訪問日志詳細記錄了每個用戶訪問網站的情況,其中包含訪問者的IP地址、訪問的RUL、訪問時間等等內容。
發明內容
為解決上述問題,本發明分別從特征識別、訪問行為識別的角度針對普通爬蟲、高級爬蟲和特殊爬蟲進行多重檢測。
本發明提供一種基于訪問日志IP分析的網絡爬蟲檢測方法,具體包括以下步驟:
1、使用特征檢測法檢測訪問請求數據包中的特征來判斷是否為普通爬蟲,如果識別成功則判定該IP屬于網絡爬蟲,否則進入下一步;
2、使用訪問行為檢測法檢測IP訪問靜態資源和動態資源的比例來判斷該IP是否為高級爬蟲,如果識別成功則判定該IP屬于網絡爬蟲,否則進入下一步;
3、使用特殊爬蟲檢測法檢測網站接口的訪問量來判斷是否為爬蟲,如果識別成功則判定該IP屬于網絡爬蟲,否則判定為非爬蟲IP;
4、輸出判定結果。
其中三種檢測方法具體如下:
一、特征檢測法
特征檢測法適用于普通爬蟲,首先獲取訪問請求中的UserAgent字段,檢測UserAgent中是否包含自動化程序特征,包括python、ruby、PhantomJS、pycurl、httpunit、Wget、Java,如果檢測到以上關鍵詞特征則判定為爬蟲。
二、訪問行為檢測法
訪問行為檢測法適用于高級爬蟲,分為以下幾個步驟:
(1)、將網站訪問日志按照IP維度進行劃分,即獲取每個IP的全部網站訪問日志;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都知道創宇信息技術有限公司,未經成都知道創宇信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811403690.X/2.html,轉載請聲明來源鉆瓜專利網。





