[發明專利]一種反爬蟲處理方法、系統、存儲介質及電子設備在審
| 申請號: | 202111299496.3 | 申請日: | 2021-11-04 |
| 公開(公告)號: | CN113961788A | 公開(公告)日: | 2022-01-21 |
| 發明(設計)人: | 梁志勇 | 申請(專利權)人: | 京東科技信息技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/957;G06F16/958 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 錢娜 |
| 地址: | 100000 北京市大興區經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 爬蟲 處理 方法 系統 存儲 介質 電子設備 | ||
本申請公開了一種反爬蟲處理方法、系統、存儲介質及電子設備,當接收到網絡爬蟲訪問預先生成的各個隱蔽鏈接中的任意一個隱蔽鏈接產生的訪問請求時,獲取網絡爬蟲訪問隱蔽鏈接時所使用的IP,各個隱蔽鏈接隱藏于HTML網頁文件中,通過預設IP風險情報庫對IP進行風險類型識別,得到風險識別結果,風險識別結果用于指示IP對應的風險等級,基于風險識別結果執行對應的操作。通過上述方案,在網頁中隨機插入隱蔽鏈接,通過隱蔽鏈接實時監測網絡爬蟲,確保對網絡爬蟲進行監測的時效性。并且結合IP風險情報庫中的風險等級對網絡爬蟲進行評分,根據評分采取如攔截、驗證碼驗證等處置手段,提高識別惡意的網絡爬蟲的準確性。
技術領域
本申請涉及網絡爬蟲技術領域,更具體地說,涉及一種反爬蟲處理方法、系統、存儲介質及電子設備。
背景技術
網絡爬蟲是按照一定的規則自動化抓取網頁信息的程序。網絡爬蟲的過程分為網絡請求、文本獲取和數據提取。
網絡爬蟲的訪問和收集網站數據行為會產生相當規模的網絡流量,有分析表明其中三分之二的數據抓取行為是惡意的,并且這一比例還在不斷上升。網絡爬蟲可以掠奪資源、削弱競爭對手。網絡爬蟲往往被濫用于從一個站點抓取內容,然后將該內容發布至另一個站點,而不顯示數據源或鏈接,從而出現虛假網站,產生欺詐風險等行為。
開發者不得不使用各種技術手段來限制爬蟲對服務器資源的訪問。爬蟲的爬取過程主要分為網絡請求、文本提前和數據提取三個階段,常見的反爬蟲技術包括請求限制、拒絕響應、客戶端身份驗證、文本混淆和使用動態渲染技術等。
但是,針對國際互聯協議(InternetProtocol,IP)以及通用唯一識別碼(UniversallyUnique Identifier,UUID)的頻次規則及模型,惡意的網絡爬蟲通常會采用頻繁更換IP以及sleep機制,繞過反爬蟲技術,使得對惡意的網絡爬蟲的識別率低。
發明內容
有鑒于此,本申請提供了一種反爬蟲處理方法、系統、存儲介質及電子設備,確保對網絡爬蟲進行監測的時效性和提高識別網絡爬蟲的準確性。
為了實現上述目的,其公開的技術方案如下:
本申請第一方面公開了一種反爬蟲處理方法,所述方法包括:
當接收到網絡爬蟲訪問預先生成的各個隱蔽鏈接中的任意一個隱蔽鏈接產生的訪問請求時,獲取所述網絡爬蟲訪問隱蔽鏈接時所使用的IP;所述各個隱蔽鏈接隱藏于HTML網頁文件中;
通過預設IP風險情報庫對所述IP進行風險識別,得到風險識別結果;所述風險識別結果用于指示所述IP對應的風險等級;
基于所述風險識別結果執行對應的操作。
優選的,各個隱蔽鏈接的生成過程,包括:
通過隨機鏈接生成服務,對HTML網頁文件中的各個URL鏈接進行遍歷,隨機生成各個待處理鏈接;
對所述各個待處理鏈接進行隱蔽處理,得到各個隱蔽鏈接。
優選的,在所述對所述各個待處理鏈接進行隱蔽處理,得到各個隱蔽鏈接之后,還包括:
對包含所述各個隱蔽鏈接的HTML網頁文件進行自動化測試。
優選的,所述通過預設IP風險情報庫對所述IP進行風險識別,得到風險識別結果,包括:
從預設IP風險情報庫中獲取預設風險等級;所述預設風險等級包括高風險等級、中高風險等級、中風險等級、中低風險等級、低風險等級和無風險等級;
通過所述預設風險等級對所述IP對應的風險等級進行評分;
和/或,若所述IP對應的風險等級的評分為第一評分,則確定所述IP對應的風險等級為所述高風險等級;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技信息技術有限公司,未經京東科技信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111299496.3/2.html,轉載請聲明來源鉆瓜專利網。





