[發明專利]一種基于頁面埋點的防爬蟲方法有效
| 申請號: | 201910882561.1 | 申請日: | 2019-09-18 |
| 公開(公告)號: | CN110581859B | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 陳志;范淵;吳永越;鄭學新;劉韜 | 申請(專利權)人: | 成都安恒信息技術有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 賈林 |
| 地址: | 610000 四川省成都市自由貿易試驗區成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 頁面 爬蟲 方法 | ||
1.一種基于頁面埋點的防爬蟲方法,其特征在于:具體包括以下步驟:
步驟S1:判斷請求ip是否在爬蟲ip黑名單中;
步驟S2:若不在,則通過瀏覽器的頁面信息、埋點元素所在的坐標信息以及當前頁面的url對于埋點元素的信息合法性進行一次校驗;一次校驗不通過,則為疑似爬蟲ip加入疑似爬蟲ip隊列;具體包括以下步驟:
步驟S21:客戶端得到從服務器返回的頁面信息;當頁面被瀏覽器渲染或者有用戶點擊事件時,客戶端上報埋點元素信息到服務器;所述頁面信息包括頁面埋點元素;
步驟S22:客戶端向服務器發起HTTP請求,上報當前瀏覽器頁面寬度ww、高度信息wh、埋點元素所在坐標信息和當前頁面的url;所述埋點元素所在坐標信息包括埋點元素所在的橫坐標pw和埋點元素所在的縱坐標ph;當前頁面的所述url包括預設的寬度百分比wp和預設的高度百分比hp;
步驟S23:服務器接收到客戶端上報的埋點元素信息請求,通過對比存儲在redis中的url與頁面埋點元素信息占頁面的寬度百分比和高度百分比的方式校驗上報的埋點元素信息是否是合法的;
若校驗合法,服務器頒發token給客戶端,將token放到客戶端請求的header中;
若校驗不合法,將該請求ip放入疑似爬蟲ip隊列中;
步驟S3:對疑似爬蟲ip進行二次校驗;二次校驗沒有通過,則將該疑似爬蟲ip為爬蟲ip;
步驟S4:對兩次校驗通過的請求ip制定一個單位時間的流量控制,通過判斷請求ip在單位時間內對資源的請求數是否到達流量控制閾值判斷是否為疑似爬蟲ip;
若達到流量控制閾值,加入疑似爬蟲ip隊列并執行步驟S3的操作;
若沒有達到流量控制閾值,服務器將對請求數據處理。
2.根據權利要求1所述的一種基于頁面埋點的防爬蟲方法,其特征在于:所述步驟S1具體是指:服務端接收到一個請求時,取得請求ip,然后在服務器的爬蟲ip黑名單中查找請求ip;若在,直接拒絕訪問。
3.根據權利要求1所述的一種基于頁面埋點的防爬蟲方法,其特征在于:所述步驟S23中的校驗方式具體是指:
從客戶端獲取到的埋點元素的寬度百分比:cwp=pw/ww * 100%;
從客戶端獲取到的埋點元素的高度百分比:chp=ph/wh * 100%;
其中pw為埋點元素所在的橫坐標;ph為埋點元素所在的縱坐標;
若cwp=wp且chp=hp,則校驗合法,否則校驗不合法;所述wp為預設的寬度百分比,所述hp為預設的高度百分比。
4.根據權利要求1所述的一種基于頁面埋點的防爬蟲方法,其特征在于:步驟S3具體是指:處于疑似爬蟲ip隊列中的客戶端將再次向服務器發起請求,服務器對客戶端展示驗證碼校驗;
若客戶端通過驗證碼校驗,則將該ip從疑似爬蟲ip隊列中解除,并給該客戶端請求的header中添加token值;
若客戶端沒有通過驗證碼校驗,則疑似爬蟲ip將加入到爬蟲ip黑名單中。
5.根據權利要求1所述的一種基于頁面埋點的防爬蟲方法,其特征在于:所述步驟S4具體是指:對于步驟S23中校驗合法的請求ip和步驟S3中通過驗證碼校驗的請求ip做一個單位時間的流量控制,并判斷該請求ip在單位時間內對資源的請求數是否達到流量控制閾值;
若達到;該請求ip加入疑似爬蟲ip隊列并執行步驟S3的操作;
若未達到;服務器將對請求數據處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都安恒信息技術有限公司,未經成都安恒信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910882561.1/1.html,轉載請聲明來源鉆瓜專利網。





