[發(fā)明專利]一種反爬蟲處理方法、系統(tǒng)、存儲介質及電子設備在審

申請?zhí)枺?/td>	202111299496.3	申請日：	2021-11-04
公開（公告）號：	CN113961788A	公開（公告）日：	2022-01-21
發(fā)明（設計）人：	梁志勇	申請（專利權）人：	京東科技信息技術有限公司
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/955;G06F16/957;G06F16/958
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	錢娜
地址：	100000 北京市大興區(qū)經濟***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種爬蟲處理方法系統(tǒng) 存儲介質電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種反爬蟲處理方法、系統(tǒng)、存儲介質及電子設備，當接收到網絡爬蟲訪問預先生成的各個隱蔽鏈接中的任意一個隱蔽鏈接產生的訪問請求時，獲取網絡爬蟲訪問隱蔽鏈接時所使用的IP，各個隱蔽鏈接隱藏于HTML網頁文件中，通過預設IP風險情報庫對IP進行風險類型識別，得到風險識別結果，風險識別結果用于指示IP對應的風險等級，基于風險識別結果執(zhí)行對應的操作。通過上述方案，在網頁中隨機插入隱蔽鏈接，通過隱蔽鏈接實時監(jiān)測網絡爬蟲，確保對網絡爬蟲進行監(jiān)測的時效性。并且結合IP風險情報庫中的風險等級對網絡爬蟲進行評分，根據(jù)評分采取如攔截、驗證碼驗證等處置手段，提高識別惡意的網絡爬蟲的準確性。

技術領域

本申請涉及網絡爬蟲技術領域，更具體地說，涉及一種反爬蟲處理方法、系統(tǒng)、存儲介質及電子設備。

背景技術

網絡爬蟲是按照一定的規(guī)則自動化抓取網頁信息的程序。網絡爬蟲的過程分為網絡請求、文本獲取和數(shù)據(jù)提取。

網絡爬蟲的訪問和收集網站數(shù)據(jù)行為會產生相當規(guī)模的網絡流量，有分析表明其中三分之二的數(shù)據(jù)抓取行為是惡意的，并且這一比例還在不斷上升。網絡爬蟲可以掠奪資源、削弱競爭對手。網絡爬蟲往往被濫用于從一個站點抓取內容，然后將該內容發(fā)布至另一個站點，而不顯示數(shù)據(jù)源或鏈接，從而出現(xiàn)虛假網站，產生欺詐風險等行為。

開發(fā)者不得不使用各種技術手段來限制爬蟲對服務器資源的訪問。爬蟲的爬取過程主要分為網絡請求、文本提前和數(shù)據(jù)提取三個階段，常見的反爬蟲技術包括請求限制、拒絕響應、客戶端身份驗證、文本混淆和使用動態(tài)渲染技術等。

但是，針對國際互聯(lián)協(xié)議(InternetProtocol，IP)以及通用唯一識別碼(UniversallyUnique Identifier，UUID)的頻次規(guī)則及模型，惡意的網絡爬蟲通常會采用頻繁更換IP以及sleep機制，繞過反爬蟲技術，使得對惡意的網絡爬蟲的識別率低。

發(fā)明內容

有鑒于此，本申請?zhí)峁┝艘环N反爬蟲處理方法、系統(tǒng)、存儲介質及電子設備，確保對網絡爬蟲進行監(jiān)測的時效性和提高識別網絡爬蟲的準確性。

為了實現(xiàn)上述目的，其公開的技術方案如下：

本申請第一方面公開了一種反爬蟲處理方法，所述方法包括：

當接收到網絡爬蟲訪問預先生成的各個隱蔽鏈接中的任意一個隱蔽鏈接產生的訪問請求時，獲取所述網絡爬蟲訪問隱蔽鏈接時所使用的IP；所述各個隱蔽鏈接隱藏于HTML網頁文件中；

通過預設IP風險情報庫對所述IP進行風險識別，得到風險識別結果；所述風險識別結果用于指示所述IP對應的風險等級；

基于所述風險識別結果執(zhí)行對應的操作。

優(yōu)選的，各個隱蔽鏈接的生成過程，包括：

通過隨機鏈接生成服務，對HTML網頁文件中的各個URL鏈接進行遍歷，隨機生成各個待處理鏈接；

對所述各個待處理鏈接進行隱蔽處理，得到各個隱蔽鏈接。

優(yōu)選的，在所述對所述各個待處理鏈接進行隱蔽處理，得到各個隱蔽鏈接之后，還包括：

對包含所述各個隱蔽鏈接的HTML網頁文件進行自動化測試。