[發明專利]識別網絡爬蟲的方法及系統有效
| 申請號: | 201710321154.4 | 申請日: | 2017-05-09 |
| 公開(公告)號: | CN107147640B | 公開(公告)日: | 2019-12-31 |
| 發明(設計)人: | 黃梅芬 | 申請(專利權)人: | 網宿科技股份有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06 |
| 代理公司: | 11573 北京華智則銘知識產權代理有限公司 | 代理人: | 王昌貴 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 網絡 爬蟲 方法 系統 | ||
本發明公開了一種識別網絡爬蟲的方法及系統,其中該方法包括:接收客戶端發起的頁面請求;判斷該頁面請求是否是爬蟲識別程序的請求;如果是爬蟲識別程序的請求,根據爬蟲識別程序的請求數據判斷客戶端是否為正??蛻舳?,并修改數據庫中的爬蟲判斷記錄;如果不是爬蟲識別程序的請求,在響應內容類型為HTML或JavaScript的頁面添加爬蟲識別程序代碼,并發送給客戶端。本發明將爬蟲識別程序代碼下發給客戶端,通過判斷接收的頁面請求是否是爬蟲識別程序的請求,然后根據請求數據和客戶端的爬蟲判斷記錄識別客戶端是否有爬蟲活動,能及時進行爬蟲識別,提高了識別結果的準確性。
技術領域
本發明涉及網絡安全技術領域,特別涉及一種識別網絡爬蟲的方法及系統。
背景技術
互聯網的廣泛普及,使得在線Web應用平臺已成為互聯網信息交互的中心,各種商業交易均可以在Web應用平臺上完成,隨之而來的是在線Web應用平臺面臨的越來越多的安全威脅。其中,黑客們使用各種各樣掃描工具掃描Web程序,進行一些非法的網絡行為,并依此來獲取相關利益。不管是對Web應用平臺進行漏洞掃描,還是針對商品頁面進行刷單搶單等薅羊毛行為,首先進行的都是頁面的爬蟲活動,進而從返回的頁面里提取相關信息。復雜的網絡請求中,存在各式各樣頁面信息爬取,不正規的、惡意的程序過量爬取會造成服務器負載過大。
目前,識別網絡爬蟲主要有以下三種方法:(1)統計方法,通過對訪問記錄進行統計,根據事件類型、訪問頻率等進行分析;(2)用戶代理(User Agent,簡稱為UA)分析方法,分析UA是否帶有明顯的爬蟲程序的信息;(3)陷阱方法,通過設置一種瀏覽器渲染不可見的隱藏鏈接,等待爬蟲觸發。
上述方法中均存在一些不足,具體如下:
(1)統計方法跟產品自身相關性較大,需根據產品特征來定義。判斷的準則具有不確定性,無法根據一個定性的條件來判斷。在某些頁面存在線上活動時,就會導致局部頁面請求的頻率出現異常,從而出現爬蟲特征。而有些公司、學校統一網絡出口的地址其頁面訪問信息的統計結果也符合爬蟲特征。
(2)UA分析方法,UA信息容易被偽造,造成遺漏。UA信息是由超文本傳輸協議(Hyper Text Transfer Protocol,簡稱為HTTP)請求發起方主動攜帶的標記當前請求環境的一個信息字段,這個信息可由發起方進行修改。如常用的各種瀏覽器均會在UA帶上自己瀏覽器信息的特殊字符,包括谷歌、百度等搜索引擎爬蟲的UA均帶有特殊標記的字符,而一些惡意爬蟲程序利用這個特征偽造UA信息字段,使之和正規的搜索引擎爬蟲的UA或者正常瀏覽器的UA字段信息一樣,這樣就導致無法對這一類惡意爬蟲程序進行有效的識別。
(3)陷阱方法,對于一些指定頁面爬取的爬蟲請求無法識別,會存在一定的誤報。
發明內容
為了解決現有技術中爬蟲程序偽造信息字段造成爬蟲識別結果判斷不準確,以及現有爬蟲識別方法存在一定的延時判斷,無法及時對請求進行識別判斷的問題,本發明實施例提供了一種識別網絡爬蟲的方法及系統。所述技術方案如下:
根據本發明實施例的一個方面,提供了一種識別網絡爬蟲的方法,包括:
接收客戶端發起的頁面請求;
判斷所述頁面請求是否是爬蟲識別程序的請求;
如果所述頁面請求是爬蟲識別程序的請求,根據所述爬蟲識別程序的請求數據判斷所述客戶端是否為正??蛻舳耍⑿薷臄祿熘械呐老x判斷記錄;
如果所述頁面請求不是爬蟲識別程序的請求,在響應內容類型為超文本標記語言(HyperText Markup Language,簡稱為HTML)或JavaScript(簡稱為JS,是一種腳本語言)的頁面添加爬蟲識別程序代碼,并發送給所述客戶端。
進一步的,根據所述爬蟲識別程序的請求數據判斷所述客戶端是否為正常客戶端,并修改數據庫中的爬蟲判斷記錄,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網宿科技股份有限公司,未經網宿科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710321154.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種保溫地板及其制備方法
- 下一篇:紐扣(7?2)





