[發明專利]反爬蟲方法、裝置及存儲介質有效
| 申請號: | 202011062053.8 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112202784B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 唐舉洪 | 申請(專利權)人: | 成都新潮傳媒集團有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06F16/951 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 王霞 |
| 地址: | 610000 四川省成都市高新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 方法 裝置 存儲 介質 | ||
本發明涉及計算機網絡技術領域,公開了一種反爬蟲方法、裝置及存儲介質,該方法包括:確定在預設時間內客戶端請求資源的順序,其中,該資源為基于任一網頁標簽被觸發后而需要請求的至少一個子資源;確定客戶端請求至少一個子資源的順序是否為預設順序;若否,則確定客戶端的用戶為爬蟲用戶。本發明提供的用戶識別方法、裝置及存儲介質能夠十分方便準確的完成爬蟲用戶的識別。
技術領域
本發明涉及計算機網絡技術領域,具體涉及一種反爬蟲方法、裝置及存儲介質。
背景技術
爬蟲是一種自動爬取網站頁面上的內容的程序或腳本,惡意的爬蟲會導致服務變慢,影響真正的用戶使用,極大的影響用戶體驗,因此在不影響用戶的使用的情況下,快速識別出爬蟲用戶,制止爬蟲訪問網站內容是很有必要的。
現有技術中大多是通過統計互聯網協議(Internet?Protocol?Address,IP)地址的訪問頻率和次數來識別爬蟲用戶。然而,采用這樣的方式僅能夠識別出頻繁爬取網站內容的爬蟲用戶,其識別爬蟲用戶的能力有限,并不能很好的識別出爬蟲用戶。
因此,如何提供一種有效的方案以準確的識別出爬蟲用戶,已成為現有技術中一亟待解決的難題。
發明內容
為了解決現有技術中存在的識別爬蟲用戶的能力有限的問題,本發明的目的在于提供一種反爬蟲方法、裝置及存儲介質,以準確的識別出爬蟲用戶。
第一方面,本發明提供了一種反爬蟲方法,包括:
確定在預設時間內客戶端請求資源的順序,其中,所述資源為基于任一網頁標簽被觸發后而需要請求的至少一個子資源;
確定所述客戶端請求所述至少一個子資源的順序是否為預設順序;
若否,則確定所述客戶端的用戶為爬蟲用戶。
通過上述設計,本發明通過在網頁標簽被觸發后,確定在預設時間內客戶端請求的至少一個子資源的順序是否為預設順序,從而確定出客戶端的用戶是否為爬蟲用戶,從而能夠十分方便準確的完成爬蟲用戶的識別。
在一個可能的設計中,確定在預設時間內客戶端請求資源的順序,包括:
接收客戶端發送的訪問請求,所述訪問請求是用于請求訪問所述任一網頁標簽的內容的請求;
響應所述訪問請求,確定在預設時間內客戶端資源的順序。
基于上述公開的內容,可確定出在預設時間內客戶端資源的順序,以便于后續確定客戶端的用戶是否為爬蟲用戶。
在一個可能的設計中,所述至少一個子資源為至少一個靜態資源和/或至少一個動態資源;確定所述客戶端請求所述至少一個子資源的順序是否為預設順序,包括:
確定所述客戶端請求所述至少一個靜態資源的順序是否為第一預設子順序;和/或
確定所述客戶端請求所述至少一個動態資源的順序是否為第二預設子順序。
基于上述公開的內容,能夠根據請求靜態資源的順序和請求動態資源的順放是否為預設的順序,從而確定出客戶端的用戶是否為爬蟲用戶。
在一個可能的設計中,確定所述客戶端請求所述至少一個子資源的順序是否為預設順序,包括:
確定在預設時間內所述客戶端請求所述至少一個靜態資源和所述至少一個動態資源的比例;
若所述至少一個靜態資源和所述至少一個動態資源的比例在預設比例范圍內,確定所述客戶端請求所述至少一個靜態資源的順序是否為第一預設子順序和確定所述客戶端請求所述至少一個動態資源的順序是否為第二預設子順序。
基于上述公開的內容,能夠根據靜態資源和動態資源的比例以及靜態資源和動態資源的順序,確定出客戶端的用戶是否為爬蟲用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都新潮傳媒集團有限公司,未經成都新潮傳媒集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011062053.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種安防監控方法
- 下一篇:一種智能安防監控系統





