[發明專利]一種分級校驗防爬蟲的方法、裝置、設備及存儲介質在審
| 申請號: | 202210165100.4 | 申請日: | 2022-02-17 |
| 公開(公告)號: | CN114553541A | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 王玨;朱亮 | 申請(專利權)人: | 蘇州良醫匯網絡科技有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06F16/951;G06N3/04 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 王廣浩 |
| 地址: | 215000 江蘇省蘇州市工業園區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分級 校驗 爬蟲 方法 裝置 設備 存儲 介質 | ||
本發明涉及一種分級校驗防爬蟲方法、設備、裝置及計算機存儲介質。本發明所提供的分級校驗防爬蟲方法,包括:接受用戶請求,統計橫向時間訪問次數,利用所述橫向時間訪問次數計算風險系數,判斷所述風險系數是否在預設的校驗異常范圍內,若所述風險系數在預設的校驗異常范圍內,則根據所述風險系數進行風險值評估,判斷用戶請求風險分級,當所述用戶請求風險分級為高風險時,進行登錄攔截校驗,所述用戶請求風險分級為中風險時,進行驗證碼校驗,所述用戶請求風險分級為低風險時,則允許請求,本發明避免了誤封正常用戶ip地址,既不影響正常用戶的訪問,并且還防止了系統宕機的風險,解決了現有技術中單一通過并發訪問頻率來攔截爬蟲的問題。
技術領域
本發明涉及數據處理技術領域,尤其是指一種分級校驗防爬蟲方法、設備、裝置及計算機存儲介質。
背景技術
現有的技術中,主要的防爬蟲方式為統計固定時長內的訪問總數來判定請求是否是爬蟲,該方式單一且容易導致惡意爬蟲在上限內高并發請求后臺,或使用換ip的方式來并發訪問爬取數據,導致服務器宕機,而依靠封禁ip地址的防爬蟲方式雖然有效,但容易誤傷正常用戶,所以需要開發一個新的防爬蟲方式,解決現有技術中單一通過并發訪問頻率來攔截爬蟲的問題,并優化攔截效率,防止誤封正常用戶ip地址。
發明內容
為此,本發明所要解決的技術問題在于克服現有技術中判斷爬蟲方式單一,攔截效率不高的問題。
為解決上述技術問題,本發明提供了一種分級校驗防爬蟲方法、設備、裝置及計算機存儲介質,包括:
接受用戶請求,獲取橫向時間訪問數據;
利用所述橫向時間訪問數據統計得到橫向時間訪問次數;
利用所述橫向時間訪問次數計算風險系數;
判斷所述風險系數是否在預設的校驗異常范圍內;
若所述風險系數在所述預設校驗異常范圍內,則根據所述風險系數進行風險值評估,判斷用戶請求風險分級,所述用戶請求風險分級包括低風險、中風險、高風險;
當所述用戶請求風險分級為高風險時,進行登錄攔截校驗,當所述用戶請求風險分級為中風險時,進行驗證碼校驗,當所述用戶請求風險分級為低風險時,則允許請求,返回數據并存儲至數據庫;
若所述登錄攔截校驗或所述驗證碼校驗失敗,則判定為爬蟲,封禁ip,若登錄成功或所述驗證碼校驗成功,則允許請求并將所述風險系數清零。
優選地,所述利用所述橫向時間訪問數據統計得到橫向時間訪問次數包括:
將所述橫向時間訪問數據存儲至數據庫并設置過期時間為預設時長;
利用所述橫向時間訪問數據的唯一標識key統計橫向時間訪問次數,所述橫向時間訪問次數為同一時間內用戶并發的重復行為,所述橫向時間訪問數據的唯一標識key包含ip和訪問端信息。
優選地,所述唯一標識key為目標url和當前時間minute的Md5加密key。
優選地,所述利用所述橫向時間訪問次數計算風險系數包括:
所述風險系數score計算規則為:
score=d+c/r+m
其中,c為所述用戶的橫向時間訪問次數,r為請求閾值系數,m為根據用戶行為風險預設的不同分數,d為根據兩次相同訪問時間間隔預設的分數,An為在每次用戶操作時,采用預先訓練好的RNN+SoftMax模型選取預先定義的分值數組中的一個分值,并對每次操作選取的數值進行累加得到的分數:
An=tanh(Wα×An-1+Wβ×Tn+Basic)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州良醫匯網絡科技有限公司,未經蘇州良醫匯網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210165100.4/2.html,轉載請聲明來源鉆瓜專利網。





