[發(fā)明專利]一種識別爬蟲的方法、裝置及系統在審
| 申請?zhí)枺?/td> | 201811321280.0 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109582844A | 公開(公告)日: | 2019-04-05 |
| 發(fā)明(設計)人: | 張璐;刁士涵;武金 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/332;G06F17/27 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬蟲 詞頻 裝置及系統 訪問請求 分布特征 用戶代理 字段 儲備量 誤傷 正常用戶 申請 訪問 統計 | ||
1.一種識別爬蟲的方法,其特征在于,包括:
若監(jiān)聽到用戶用于訪問當前頁面的訪問請求,則從所述訪問請求中獲取用戶代理字段;
確定所述用戶代理字段的詞頻分布特征;
將所述詞頻分布特征輸入到預先訓練的爬蟲識別模型中,得到所述用戶是否為爬蟲的識別結果。
2.根據權利要求1所述的方法,其特征在于,所述確定所述用戶代理字段的詞頻分布特征,包括:
對所述用戶代理字段進行分詞處理,得到至少一個目標詞語;
根據所述至少一個目標詞語的詞頻確定所述用戶代理字段的詞頻分布特征。
3.根據權利要求2所述的方法,其特征在于,所述根據所述至少一個目標詞語的詞頻確定所述用戶代理字段的詞頻分布特征,包括:
基于預先構建的對應關系,確定所述至少一個目標詞語中每個目標詞語的詞頻;
統計所述至少一個目標詞語的詞頻落入多個預設詞頻區(qū)間的數量;
根據所述數量對應的向量確定所述用戶代理字段對應的詞頻分布特征。
4.根據權利要求1所述的方法,其特征在于,所述爬蟲識別模型根據以下步驟訓練得到:
獲取多個樣本訪問請求,并從所述多個樣本訪問請求中獲取樣本用戶代理字段;
確定所述樣本用戶代理字段的樣本詞頻分布特征;
對所述樣本詞頻分布特征進行標定,并將標定后的樣本詞頻分布特征作為訓練集,訓練所述爬蟲識別模型。
5.根據權利要求4所述的方法,其特征在于,所述確定所述樣本用戶代理字段的樣本詞頻分布特征,包括:
對所述樣本用戶代理字段進行分詞處理,得到至少一個樣本目標詞語;
基于預先構建的對應關系,確定所述至少一個樣本目標詞語中每個樣本目標詞語的詞頻;
統計所述至少一個樣本目標詞語的詞頻落入多個預設詞頻區(qū)間的數量;
根據所述數量對應的向量確定所述樣本用戶代理字段對應的樣本詞頻分布特征。
6.根據權利要求5所述的方法,其特征在于,所述獲取多個樣本訪問請求,包括:
獲取正樣本訪問請求和負樣本訪問請求,所述正樣本訪問請求包括爬蟲訪問當前頁面時生成的訪問請求,所述負樣本訪問請求包括正常用戶訪問當前頁面時生成的訪問請求。
7.根據權利要求6所述的方法,其特征在于,所述方法還包括:
根據所述負樣本訪問請求構建所述目標詞語與詞頻之間的對應關系。
8.一種識別爬蟲的裝置,其特征在于,包括:
代理字段獲取模塊,用于當監(jiān)聽到用戶用于訪問當前頁面的訪問請求時,從所述訪問請求中獲取用戶代理字段;
分布特征確定模塊,用于確定所述用戶代理字段的詞頻分布特征;
識別結果獲取模塊,用于將所述詞頻分布特征輸入到預先訓練的爬蟲識別模型中,得到所述用戶是否為爬蟲的識別結果。
9.一種識別爬蟲的設備,其特征在于,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,所述處理器執(zhí)行所述程序時實現上述權利要求1-7任一所述的識別爬蟲的方法。
10.一種計算機可讀存儲介質,其特征在于,所述存儲介質存儲有計算機程序,所述計算機程序用于執(zhí)行上述權利要求1-7任一所述的識別爬蟲的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811321280.0/1.html,轉載請聲明來源鉆瓜專利網。





