[發明專利]一種識別爬蟲的方法、裝置及系統在審

申請號：	201811321280.0	申請日：	2018-11-07
公開（公告）號：	CN109582844A	公開（公告）日：	2019-04-05
發明（設計）人：	張璐;刁士涵;武金	申請（專利權）人：	北京三快在線科技有限公司
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/332;G06F17/27
代理公司：	北京博思佳知識產權代理有限公司 11415	代理人：	林祥
地址：	100080 北京市海***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	爬蟲詞頻裝置及系統訪問請求分布特征用戶代理字段儲備量誤傷正常用戶申請訪問統計
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請提供一種識別爬蟲的方法、裝置及系統，其中，所述方法包括：若監聽到用戶用于訪問當前頁面的訪問請求，則從所述訪問請求中獲取用戶代理字段；確定所述用戶代理字段的詞頻分布特征；將所述詞頻分布特征輸入到預先訓練的爬蟲識別模型中，得到所述用戶是否為爬蟲的識別結果。本申請由于不需要統計IP訪問流量或頻次，因而可以避免因為爬蟲的IP儲備量大而漏過爬蟲，并且可以避免誤傷公共IP下的正常用戶。

技術領域

本申請涉及互聯網技術領域，尤其涉及一種識別爬蟲的方法、裝置及系統。

背景技術

網絡爬蟲(簡稱爬蟲)，是一種通過網頁的鏈接地址尋找網頁，并按照一定的規則，自動獲取網頁內容的程序或者腳本。目前的爬蟲技術可以通過設定的規則，抓取網頁源碼中一些重要信息，造成網站信息泄漏，降低網站安全性能。

現有的一種識別爬蟲的方案，可以累計IP(Internet Protocol，網絡之間互連的協議)的訪問流量(或頻次)，當累計的流量超過預設閾值時，將該IP對應的用戶視為爬蟲，并加入黑名單進行攔截。然而，這種方式當爬蟲的IP儲備量較大時，容易因為單個IP的流量未超過預設閾值而漏過爬蟲，并且容易誤傷公共IP下的正常用戶。

發明內容

有鑒于此，本申請提供一種識別爬蟲的方法、裝置及系統，以解決現有的反爬蟲技術方案存在的上述問題。

具體地，本申請是通過如下技術方案實現的：

根據本申請的第一方面，提出了一種識別爬蟲的方法，包括：

若監聽到用戶用于訪問當前頁面的訪問請求，則從所述訪問請求中獲取用戶代理字段；

確定所述用戶代理字段的詞頻分布特征；

將所述詞頻分布特征輸入到預先訓練的爬蟲識別模型中，得到所述用戶是否為爬蟲的識別結果。

在一實施例中，所述確定所述用戶代理字段的詞頻分布特征，包括：

對所述用戶代理字段進行分詞處理，得到至少一個目標詞語；

根據所述至少一個目標詞語的詞頻確定所述用戶代理字段的詞頻分布特征。

在一實施例中，所述根據所述至少一個目標詞語的詞頻確定所述用戶代理字段的詞頻分布特征，包括：

基于預先構建的對應關系，確定所述至少一個目標詞語中每個目標詞語的詞頻；