[發明專利]網絡爬蟲識別方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201810031350.2 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN108228864B | 公開(公告)日: | 2019-08-20 |
| 發明(設計)人: | 李武奇 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 謝曲曲 |
| 地址: | 518052 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 資源標識 網絡爬蟲 訪問節點 請求端 資源訪問請求 計算機設備 存儲介質 資源節點 集合 匹配 孤立 資源結構 父節點 子節點 預設 判定 申請 | ||
本申請涉及一種網絡爬蟲識別方法、系統、計算機設備和存儲介質。方法包括:接收多個資源訪問請求,每個資源訪問請求中包含請求端標識和資源標識;提取相同請求端標識所對應的資源標識,形成每個請求端的資源標識集合;將資源標識集合中的所有資源標識和預設的資源結構樹中的資源節點進行匹配,將與資源標識相匹配的資源節點作為訪問節點;當存在孤立的訪問節點時,判定資源標識集合對應的請求端為通過網絡爬蟲發起資源訪問請求的請求端;其中,孤立的訪問節點所對應的子節點的父節點不是訪問節點。采用本方法能夠提高網絡爬蟲識別的準確性,從而提高了網絡爬蟲的識別效率。
技術領域
本申請涉及互聯網技術領域,特別是涉及一種網絡爬蟲識別方法、裝置、計算機設備和存儲介質。
背景技術
隨著互聯網技術的發展,出現了網絡爬蟲技術。網絡爬蟲又被稱為網頁蜘蛛或網絡機器人等,是一種按照一定的規則自動地抓取萬維網信息的程序或者腳本。網絡爬蟲會造成過大的服務器壓力,還可能造成大量數據泄露。因此許多網站通過反爬蟲來阻止網絡爬蟲的訪問。
然而,傳統的反爬蟲方式,通常是通過監控對請求端IP地址和相應的請求頻繁度,來判斷請求端是爬蟲還是正常終端。當檢測到同一IP地址的在一定時長內的請求頻繁度高于預設的次數,則可判斷該IP地址對應的請求端是爬蟲。而針對這種傳統的反爬蟲方式,只要建立了代理IP池,爬蟲就能夠在訪問目標網址時通過輪換代理IP地址實現訪問,從而避免被識別出來。因此,傳統反爬蟲方式識別網絡爬蟲的效率較低。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高網絡爬蟲識別效率的網絡爬蟲識別方法、裝置、計算機設備和存儲介質。
一種網絡爬蟲識別方法,所述方法包括:接收多個資源訪問請求,每個資源訪問請求中包含請求端標識和資源標識;提取相同請求端標識所對應的資源標識,形成每個請求端的資源標識集合;將所述資源標識集合中的所有資源標識和預設的資源結構樹中的資源節點進行匹配,將與所述資源標識相匹配的資源節點作為訪問節點;當存在孤立的訪問節點時,判定所述資源標識集合對應的請求端為通過網絡爬蟲發起資源訪問請求的請求端;其中,孤立的訪問節點所對應的子節點的父節點不是訪問節點。
在其中一個實施例中,在所述將所述資源標識集合中的所有資源標識和預設的資源結構樹中的資源節點進行匹配,將與所述資源標識相匹配的資源節點作為訪問節點之后,還包括:當不存在孤立的訪問節點時,統計每個訪問節點與資源標識集合中的資源標識匹配的匹配次數;獲取每個訪問節點的節點權重;根據每個訪問節點的匹配次數和相應的節點權重進行計算,得到與所述資源標識集合對應的綜合權重;當所述綜合權重小于預設權重時,則判定所述資源標識集合對應的請求端為通過網絡爬蟲發起資源訪問請求的請求端。
在其中一個實施例中,所述獲取每個訪問節點的節點權重,包括:計算訪問節點所對應的子頁面資源與所述訪問節點的父節點所對應的父頁面資源的頁面相似度;統計所述子頁面資源中包含的無關資源的第一數量,和所述子頁面資源中包含的更新資源的第二數量,所述更新資源為父頁面資源中不包含的無關資源;根據所述頁面相似度、第一數量和第二數量進行計算,得到每個訪問節點的節點權重。
在其中一個實施例中,所述無關資源包括圖片資源、JS腳本資源及廣告資源中的至少一種。
在其中一個實施例中,在所述將所述資源標識集合中的所有資源標識和預設的資源結構樹中的資源節點進行匹配,將與所述資源標識相匹配的資源節點作為訪問節點之后,還包括:當不存在孤立的訪問節點時,統計每個訪問節點與資源標識集合中的資源標識匹配的匹配次數;當存在所述匹配次數大于預設次數的訪問節點時,則判定所述資源標識集合對應的請求端為通過網絡爬蟲發起資源訪問請求的請求端。
在其中一個實施例中,在所述判定所述資源標識集合對應的請求端為通過網絡爬蟲發起資源訪問請求的請求端之后,還包括:發送身份驗證頁面至所述網絡爬蟲所對應的請求端進行身份驗證。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810031350.2/2.html,轉載請聲明來源鉆瓜專利網。





