[發明專利]智能檢測網絡爬蟲行為的方法、裝置以及電子設備在審
| 申請號: | 201811316089.7 | 申請日: | 2018-11-06 |
| 公開(公告)號: | CN109446398A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 陳子杰;范淵 | 申請(專利權)人: | 杭州安恒信息技術股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 李強 |
| 地址: | 310000 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡爬蟲 字節數 保護網絡 電子設備 對象發送 智能檢測 檢測源 數據包 篩選 網絡安全技術 多個數據包 檢測 | ||
1.一種智能檢測網絡爬蟲行為的方法,應用于服務器,其特征在于,所述方法包括:
檢測預檢測源向待保護網絡對象發送的多個數據包中每個數據包內所包含數據的字節數,得到多個字節數值;
計算所述多個字節數值的平均值以及標準差值,得到平均字節數和字節標準差值;
基于所述平均字節數確定字節篩選閾值;
若所述字節標準差值小于所述字節篩選閾值,則確定所述預檢測源向所述待保護網絡對象發送數據包的行為是網絡爬蟲行為。
2.根據權利要求1所述的方法,其特征在于,檢測預檢測源向待保護網絡對象發送的多個數據包中每個數據包內所包含數據的字節數,包括:
根據所述預檢測源發送的數據包的HTTP狀態碼確定所述數據包的種類,得到所屬于至少一個種類的數據包組,其中,所述HTTP狀態碼為所述待保護網絡對象根據所述預檢測源發送的數據包所響應的狀態碼;
檢測數據包組Ai中所包含的至少一個數據包的字節數,得到目標字節數值,其中,i依次取1至I,I為所述至少一個種類的數據包組的數量。
3.根據權利要求2所述的方法,其特征在于,計算所述多個字節數值的平均值以及標準差值,得到平均字節數和字節標準差值,包括:
基于所述數據包組Ai所對應的目標字節數值,計算所述數據包組Ai所對應的目標字節數值的平均值和標準差值,得到所述數據包組Ai所對應的平均字節數和字節標準差值。
4.根據權利要求3所述的方法,其特征在于,基于所述平均字節數確定字節篩選閾值,包括:
將各個數據包組的平均字節數除以預設倍數,得到字節篩選閾值。
5.根據權利要求4所述的方法,其特征在于,若所述字節標準差值小于所述字節篩選閾值,則確定所述預檢測源向所述待保護網絡對象發送數據包的行為是網絡爬蟲行為,包括:
若至少一個所述數據包組的所對應的字節標準差值小于其所對應的字節篩選閾值,則確定所述預檢測源向所述待保護網絡對象發送數據包的行為是網絡爬蟲行為。
6.根據權利要求1所述的方法,其特征在于,檢測預檢測源向待保護網絡對象發送的多個數據包中每個數據包內所包含數據的字節數之前,還包括:
在多個預檢測數據包中,將源IP地址相同的所述預檢測數據包設置為同一組數據包,以得到若干組數據包;
針對每一組數據包,記錄每個數據包發送的時間點,得到多個時間點;
計算所述多個時間點中任意兩個相鄰的時間點之間間隔的時間段,得到多個時間段;
計算所述多個時間段的平均值以及標準差值,得到平均時間段和時間標準差值;
基于所述平均時間段確定時間篩選閾值;
若所述時間標準差值小于所述時間篩選閾值,則將所述同一組數據包所對應的源IP地址確定為預檢測源。
7.根據權利要求6所述的方法,其特征在于,在多個預檢測數據包中,將源IP地址相同的所述預檢測數據包設置為同一組數據包之前,還包括:
計算多個連續的預設時間段內待保護網絡對象接收數據包的個數,得到多個數據包的個數;
計算所述多個數據包的個數的平均值以及標準差值,得到平均個數以及個數標準差值;
基于所述平均個數和所述個數標準差值確定個數篩選范圍;
從所述多個數據包的個數中選擇超出所述個數篩選范圍的個數,得到預選數據包個數,并將所述預選數據包個數對應的數據包確定為預檢測數據包。
8.一種智能檢測網絡爬蟲行為的裝置,應用于服務器,其特征在于,包括:
檢測模塊,用于檢測預檢測源向待保護網絡對象發送的多個數據包中每個數據包內所包含數據的字節數,得到多個字節數值;
計算模塊,用于計算所述多個字節數值的平均值以及標準差值,得到平均字節數和字節標準差值;
第一確定模塊,用于基于所述平均字節數確定字節篩選閾值;
第二確定模塊,用于若所述字節標準差值小于所述字節篩選閾值,則確定所述預檢測源向所述待保護網絡對象發送數據包的行為是網絡爬蟲行為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州安恒信息技術股份有限公司,未經杭州安恒信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811316089.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據挖掘方法及系統
- 下一篇:一種影視實體搜索方法





