[發明專利]一種基于頁面埋點的防爬蟲方法有效
| 申請號: | 201910882561.1 | 申請日: | 2019-09-18 |
| 公開(公告)號: | CN110581859B | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 陳志;范淵;吳永越;鄭學新;劉韜 | 申請(專利權)人: | 成都安恒信息技術有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 賈林 |
| 地址: | 610000 四川省成都市自由貿易試驗區成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 頁面 爬蟲 方法 | ||
本發明公開了一種基于頁面埋點的防爬蟲方法,包括以下步驟:判斷請求ip是否在爬蟲ip黑名單中;若不在,對頁面的埋點元素的信息合法性進行一次校驗;一次校驗不通過,則為疑似爬蟲ip加入疑似爬蟲ip隊列;對疑似爬蟲ip進行二次校驗;二次校驗沒有通過,則將該疑似爬蟲ip為爬蟲ip;對兩次校驗通過的請求ip制定一個單位時間的流量控制,通過判斷請求ip在單位時間內對資源的請求數是否到達流量控制閾值判斷是否為疑似爬蟲ip;若達到流量控制閾值,加入疑似爬蟲ip隊列并執行步驟S3的操作。本發明對網絡爬蟲識別的可靠性較高,不影響正常用戶瀏覽網頁的流暢性,極大的消耗網絡爬蟲自身的資源,降低網絡爬蟲訪問網頁的頻率。
技術領域
本發明涉及計算機技術領域,具體的說,是一種基于頁面埋點的防爬蟲方法。
背景技術
目前,爬蟲技術已經遍布網絡,并且越是涉及個人切身利益的地方,越是布滿了爬蟲。對于網絡應用服務提供商來說,大量的流量來訪問這個網站,會對這個網站的服務器造成巨大的壓力,服務器壓力一大干活就得受影響,那正常訪問的用戶就會受牽連。所以惡意流量以大量IP訪問網站侵占帶寬資源,不僅影響網站的正常運作,更可能造成用戶的流失!
除了訪問網站,爬蟲在現在更主要的目的是“爬取”網站的數據,比如針對競品的數據爬取,直接的影響就是造成網站的數據泄露。進而可能出現“復制網站”,從而影響網站排名,讓真正想訪問的用戶去了假網站,從而用戶流失。
總的來說,惡意爬蟲不僅影響網站的正常運作,更危害網站安全!最可怕的是,相較于偶然性的黑產攻擊,惡意爬蟲是持續性的!這就意味著,如果要抗擊惡意爬蟲,需要消耗大量的時力!
現有的反爬蟲方案中,有一種通過對客戶端請求header中的UA進行識別來區分是否是爬蟲的方案。Header中沒有UA的,認為很大可能是爬蟲,對header中帶有UA的,如果是常用的瀏覽器UA(IE,Chrome等),則認為不是爬蟲。該處理方式看起來沒什么問題,但是太容易被欺騙了,爬蟲只需在請求時在請求header中加上流行的UA值即可偽裝通過該校驗。
還有一種方式對一段時間內,某一ip的請求次數進行統計,請求數目達到一定的量,則認為這不是一個正常的人類用戶的請求,大概率為爬蟲請求,并對該ip做臨時封禁處理。但某些爬蟲使用者在應對此種反爬措施時,利用ip代理池,或者降低請求頻率的方式,也可以很好地繞過這個反爬規則。
現有的反爬方案中,有一種對ip行為總結的方式,通過分析某ip在一段時間內的請求日志,通過構建業務模型,分析該ip的行為是一個人類用戶的行為,還是一個爬蟲的行為。該方式有個缺點就是,及時性不太夠。對一個ip的訪問日志分析,往往需要積累一定時間周期的日志,才具有分析的價值,所以動輒幾天甚至長達一周。當通過日志分析得出某ip為爬蟲ip時,可能該爬蟲已經換ip繼續工作。
術語介紹:
爬蟲:爬蟲是一種自主遍歷Web的程序,目是從各種基于Web的系統和服務中發現和檢索內容和知識。網絡爬蟲原本僅用于搜索引擎,但是隨著互聯網技術的發展,特別是大數據的到來,很多人都學習爬蟲,企業也需要采集數據挖掘有價值的資料,但是這些爬蟲采集的數據并不一定都是公開的,而是從網絡上“偷”數據,這可能會引起比較嚴重的問題,比如采集用戶信息泄露,也有可能引發法律風險,同時大量的請求也會加重對服務器的負載,影響服務器的性能,加重網站維護者的工作量。
發明內容
本發明的目的在于提供一種基于頁面埋點的防爬蟲方法,對網絡爬蟲識別的可靠性較高,不影響正常用戶瀏覽網頁的流暢性,極大的消耗網絡爬蟲自身的資源,降低網絡爬蟲訪問網頁的頻率。
本發明通過下述技術方案實現:
一種基于頁面埋點的防爬蟲方法,具體包括以下步驟:
步驟S1:判斷請求ip是否在爬蟲ip黑名單中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都安恒信息技術有限公司,未經成都安恒信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910882561.1/2.html,轉載請聲明來源鉆瓜專利網。





