[發明專利]一種識別爬蟲的方法、裝置及系統在審
| 申請號: | 201811321280.0 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109582844A | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 張璐;刁士涵;武金 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/332;G06F17/27 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 詞頻 裝置及系統 訪問請求 分布特征 用戶代理 字段 儲備量 誤傷 正常用戶 申請 訪問 統計 | ||
本申請提供一種識別爬蟲的方法、裝置及系統,其中,所述方法包括:若監聽到用戶用于訪問當前頁面的訪問請求,則從所述訪問請求中獲取用戶代理字段;確定所述用戶代理字段的詞頻分布特征;將所述詞頻分布特征輸入到預先訓練的爬蟲識別模型中,得到所述用戶是否為爬蟲的識別結果。本申請由于不需要統計IP訪問流量或頻次,因而可以避免因為爬蟲的IP儲備量大而漏過爬蟲,并且可以避免誤傷公共IP下的正常用戶。
技術領域
本申請涉及互聯網技術領域,尤其涉及一種識別爬蟲的方法、裝置及系統。
背景技術
網絡爬蟲(簡稱爬蟲),是一種通過網頁的鏈接地址尋找網頁,并按照一定的規則,自動獲取網頁內容的程序或者腳本。目前的爬蟲技術可以通過設定的規則,抓取網頁源碼中一些重要信息,造成網站信息泄漏,降低網站安全性能。
現有的一種識別爬蟲的方案,可以累計IP(Internet Protocol,網絡之間互連的協議)的訪問流量(或頻次),當累計的流量超過預設閾值時,將該IP對應的用戶視為爬蟲,并加入黑名單進行攔截。然而,這種方式當爬蟲的IP儲備量較大時,容易因為單個IP的流量未超過預設閾值而漏過爬蟲,并且容易誤傷公共IP下的正常用戶。
發明內容
有鑒于此,本申請提供一種識別爬蟲的方法、裝置及系統,以解決現有的反爬蟲技術方案存在的上述問題。
具體地,本申請是通過如下技術方案實現的:
根據本申請的第一方面,提出了一種識別爬蟲的方法,包括:
若監聽到用戶用于訪問當前頁面的訪問請求,則從所述訪問請求中獲取用戶代理字段;
確定所述用戶代理字段的詞頻分布特征;
將所述詞頻分布特征輸入到預先訓練的爬蟲識別模型中,得到所述用戶是否為爬蟲的識別結果。
在一實施例中,所述確定所述用戶代理字段的詞頻分布特征,包括:
對所述用戶代理字段進行分詞處理,得到至少一個目標詞語;
根據所述至少一個目標詞語的詞頻確定所述用戶代理字段的詞頻分布特征。
在一實施例中,所述根據所述至少一個目標詞語的詞頻確定所述用戶代理字段的詞頻分布特征,包括:
基于預先構建的對應關系,確定所述至少一個目標詞語中每個目標詞語的詞頻;
統計所述至少一個目標詞語的詞頻落入多個預設詞頻區間的數量;
根據所述數量對應的向量確定所述用戶代理字段對應的詞頻分布特征。
在一實施例中,所述爬蟲識別模型根據以下步驟訓練得到:
獲取多個樣本訪問請求,并從所述多個樣本訪問請求中獲取樣本用戶代理字段;
確定所述樣本用戶代理字段的樣本詞頻分布特征;
對所述樣本詞頻分布特征進行標定,并將標定后的樣本詞頻分布特征作為訓練集,訓練所述爬蟲識別模型。
在一實施例中,所述確定所述樣本用戶代理字段的樣本詞頻分布特征,包括:
對所述樣本用戶代理字段進行分詞處理,得到至少一個樣本目標詞語;
基于預先構建的對應關系,確定所述至少一個樣本目標詞語中每個樣本目標詞語的詞頻;
統計所述至少一個樣本目標詞語的詞頻落入多個預設詞頻區間的數量;
根據所述數量對應的向量確定所述樣本用戶代理字段對應的樣本詞頻分布特征。
在一實施例中,所述獲取多個樣本訪問請求,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811321280.0/2.html,轉載請聲明來源鉆瓜專利網。





