[發(fā)明專利]一種Web服務(wù)器的惡意爬蟲防御策略選擇方法有效

申請?zhí)枺?/td>	201710601523.5	申請日：	2017-07-21
公開（公告）號：	CN107517200B	公開（公告）日：	2020-05-26
發(fā)明（設(shè)計）人：	曾劍平;張曉惠	申請（專利權(quán)）人：	復(fù)旦大學(xué)
主分類號：	H04L29/06	分類號：	H04L29/06;H04L29/08;H04L12/26
代理公司：	上海正旦專利代理有限公司 31200	代理人：	陸飛;陸尤
地址：	200433 ***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種 web 服務(wù)器惡意爬蟲防御策略選擇方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明屬于網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域，具體為一種Web服務(wù)器的惡意爬蟲防御策略選擇方法。本發(fā)明的邏輯架構(gòu)包括Web服務(wù)器和爬蟲，本發(fā)明方法的步驟為：計算Web服務(wù)器和爬蟲的收益與代價；基于不完全信息動態(tài)博弈，計算博弈模型的均衡解，即計算Web服務(wù)器采取防御策略的期望收益和采取不防御策略時的期望收益，當(dāng)這兩個收益相等時即得到服務(wù)器選擇防御或不防御策略的臨界點；基于不完全信息重復(fù)博弈，計算博弈模型的均衡解，即計算某時刻之前爬蟲采取正常訪問行為，而之后分別選擇惡意訪問行為和正常訪問行為時所獲得的收益；當(dāng)后者大于前者時，爬蟲不會采取惡意訪問行為的策略；滿足這個條件的博弈參數(shù)是服務(wù)器策略的最佳選擇。

技術(shù)領(lǐng)域

本發(fā)明屬于網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域，具體涉及Web服務(wù)器的惡意爬蟲防御策略選擇方法。

背景技術(shù)

隨著大數(shù)據(jù)分析技術(shù)應(yīng)用的發(fā)展，互聯(lián)網(wǎng)數(shù)據(jù)由于其良好的開放性而得到了人們的關(guān)注，作為自動采集Web頁面數(shù)據(jù)的爬蟲技術(shù)也就成為大數(shù)據(jù)分析應(yīng)用不可或缺的技術(shù)，各種爬蟲應(yīng)運而生^1-4。

然而，爬蟲與Web服務(wù)器之間存在很大的矛盾。由于頁面數(shù)據(jù)量大，惡意爬蟲為了提高采集效率通常會采用各種手段來加快采集過程，但是這些技術(shù)的使用導(dǎo)致Web服務(wù)器系統(tǒng)性能的下降，從而難于為正常用戶提供服務(wù)。因此，為了進(jìn)行惡意爬蟲的檢測，Web服務(wù)器需要額外的開銷來提升惡意爬蟲的檢測識別效果，但是由于各種檢測識別方法都難于保證完全準(zhǔn)確，因此容易誤傷正常用戶的訪問，因此產(chǎn)生了更多復(fù)雜的問題。

目前，惡意爬蟲主要通過以下技術(shù)手段來繞過Web服務(wù)器的檢測^5,6。(1)偽裝User-Agent，每個瀏覽器有其正規(guī)且固定的User-Agent字段，以此來向服務(wù)器表明其身份，惡意爬蟲可以根據(jù)這個原理偽裝成正規(guī)的瀏覽器，從而逃避Web服務(wù)器的檢測。(2)使用IP代理，使用多個不同的IP代理輪流訪問Web服務(wù)器，雖然短時間內(nèi)服務(wù)器收到的請求數(shù)量激增，但這些請求的客戶端IP地址不盡相同，Web服務(wù)器也就難以針對特定IP采取對策。(3)模擬人類正常訪問Web頁面的行為特點，通過隨機(jī)延時等方法限制自身訪問速度與訪問時間，增加Web服務(wù)器分辨正常用戶與惡意爬蟲的難度。

針對惡意爬蟲的常用技術(shù)，Web服務(wù)器也有一些相應(yīng)的回?fù)舨呗?Sup>5-8，主要有：(1)限制IP地址，服務(wù)器后臺對訪問請求進(jìn)行統(tǒng)計，設(shè)定單個IP地址在特定時間內(nèi)的訪問次數(shù)閾值，如果超出了閾值限制，可以暫時封鎖IP；(2)通過驗證碼彈框，針對爬蟲模擬人類的訪問習(xí)慣，反爬蟲時采取行動往往容易誤傷用戶，而通過輸入驗證碼來阻擋部分爬蟲的技術(shù)也是當(dāng)前很普遍使用的，但這必定以犧牲用戶體驗為代價。

雖然目前有多種檢測及阻斷爬蟲的機(jī)制，但是Web服務(wù)器仍然難于決定是否該使用這些技術(shù)，以及在什么條件下使用這些技術(shù)來防止爬蟲的惡意訪問。這個問題涉及到技術(shù)實現(xiàn)所需要的人力、資金和時間投入，也涉及到爬蟲技術(shù)的持續(xù)改善所帶來的困難。因此，問題的復(fù)雜性也使得Web服務(wù)器在部署反爬蟲后就一直讓反爬蟲機(jī)制有效，但是這樣會帶來服務(wù)器資源的消耗，也容易對正常用戶的行為產(chǎn)生誤判的可能。

目前的防御技術(shù)缺乏一種形式化和可靠的模型，大都依賴于人為決策和設(shè)置。針對這種情況，本發(fā)明設(shè)計了一種Web服務(wù)器的惡意爬蟲防御策略選擇方法。該方法以博弈論基本思想為基礎(chǔ)，給出了爬蟲在正常爬行、惡意爬行的前提下，服務(wù)器采取防御或不防御策略時，各自所獲得收益的計算分析方法，并基于不完全信息動態(tài)博弈和基于不完全信息重復(fù)博弈，給出了兩種典型博弈狀態(tài)下的均衡解求解方法，給出了服務(wù)器采取不同防御策略的分析方法。

發(fā)明內(nèi)容

本發(fā)明的目的在于提供一種基于理性決策、避免主觀盲目監(jiān)測的Web服務(wù)器的惡意爬蟲防御策略選擇方法。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué)，未經(jīng)復(fù)旦大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710601523.5/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04L 數(shù)字信息的傳輸，例如電報通信
H04L29-00 H04L 1/00至H04L 27/00單個組中不包含的裝置、設(shè)備、電路和系統(tǒng)
H04L29-02 .通信控制；通信處理
H04L29-12 .以數(shù)據(jù)終端為特征的
H04L29-14 .故障的應(yīng)對措施
H04L29-04 ..用于多條通信線路的
H04L29-06 ..以協(xié)議為特征的

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】