[發(fā)明專利]一種Web服務(wù)器的惡意爬蟲防御策略選擇方法有效
| 申請?zhí)枺?/td> | 201710601523.5 | 申請日: | 2017-07-21 |
| 公開(公告)號: | CN107517200B | 公開(公告)日: | 2020-05-26 |
| 發(fā)明(設(shè)計)人: | 曾劍平;張曉惠 | 申請(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/08;H04L12/26 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 web 服務(wù)器 惡意 爬蟲 防御 策略 選擇 方法 | ||
本發(fā)明屬于網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域,具體為一種Web服務(wù)器的惡意爬蟲防御策略選擇方法。本發(fā)明的邏輯架構(gòu)包括Web服務(wù)器和爬蟲,本發(fā)明方法的步驟為:計算Web服務(wù)器和爬蟲的收益與代價;基于不完全信息動態(tài)博弈,計算博弈模型的均衡解,即計算Web服務(wù)器采取防御策略的期望收益和采取不防御策略時的期望收益,當(dāng)這兩個收益相等時即得到服務(wù)器選擇防御或不防御策略的臨界點;基于不完全信息重復(fù)博弈,計算博弈模型的均衡解,即計算某時刻之前爬蟲采取正常訪問行為,而之后分別選擇惡意訪問行為和正常訪問行為時所獲得的收益;當(dāng)后者大于前者時,爬蟲不會采取惡意訪問行為的策略;滿足這個條件的博弈參數(shù)是服務(wù)器策略的最佳選擇。
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域,具體涉及Web服務(wù)器的惡意爬蟲防御策略選擇方法。
背景技術(shù)
隨著大數(shù)據(jù)分析技術(shù)應(yīng)用的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)由于其良好的開放性而得到了人們的關(guān)注,作為自動采集Web頁面數(shù)據(jù)的爬蟲技術(shù)也就成為大數(shù)據(jù)分析應(yīng)用不可或缺的技術(shù),各種爬蟲應(yīng)運而生1-4。
然而,爬蟲與Web服務(wù)器之間存在很大的矛盾。由于頁面數(shù)據(jù)量大,惡意爬蟲為了提高采集效率通常會采用各種手段來加快采集過程,但是這些技術(shù)的使用導(dǎo)致Web服務(wù)器系統(tǒng)性能的下降,從而難于為正常用戶提供服務(wù)。因此,為了進(jìn)行惡意爬蟲的檢測,Web服務(wù)器需要額外的開銷來提升惡意爬蟲的檢測識別效果,但是由于各種檢測識別方法都難于保證完全準(zhǔn)確,因此容易誤傷正常用戶的訪問,因此產(chǎn)生了更多復(fù)雜的問題。
目前,惡意爬蟲主要通過以下技術(shù)手段來繞過Web服務(wù)器的檢測5,6。(1)偽裝User-Agent,每個瀏覽器有其正規(guī)且固定的User-Agent字段,以此來向服務(wù)器表明其身份,惡意爬蟲可以根據(jù)這個原理偽裝成正規(guī)的瀏覽器,從而逃避Web服務(wù)器的檢測。(2)使用IP代理,使用多個不同的IP代理輪流訪問Web服務(wù)器,雖然短時間內(nèi)服務(wù)器收到的請求數(shù)量激增,但這些請求的客戶端IP地址不盡相同,Web服務(wù)器也就難以針對特定IP采取對策。(3)模擬人類正常訪問Web頁面的行為特點,通過隨機(jī)延時等方法限制自身訪問速度與訪問時間,增加Web服務(wù)器分辨正常用戶與惡意爬蟲的難度。
針對惡意爬蟲的常用技術(shù),Web服務(wù)器也有一些相應(yīng)的回?fù)舨呗?Sup>5-8,主要有:(1)限制IP地址,服務(wù)器后臺對訪問請求進(jìn)行統(tǒng)計,設(shè)定單個IP地址在特定時間內(nèi)的訪問次數(shù)閾值,如果超出了閾值限制,可以暫時封鎖IP;(2)通過驗證碼彈框,針對爬蟲模擬人類的訪問習(xí)慣,反爬蟲時采取行動往往容易誤傷用戶,而通過輸入驗證碼來阻擋部分爬蟲的技術(shù)也是當(dāng)前很普遍使用的,但這必定以犧牲用戶體驗為代價。
雖然目前有多種檢測及阻斷爬蟲的機(jī)制,但是Web服務(wù)器仍然難于決定是否該使用這些技術(shù),以及在什么條件下使用這些技術(shù)來防止爬蟲的惡意訪問。這個問題涉及到技術(shù)實現(xiàn)所需要的人力、資金和時間投入,也涉及到爬蟲技術(shù)的持續(xù)改善所帶來的困難。因此,問題的復(fù)雜性也使得Web服務(wù)器在部署反爬蟲后就一直讓反爬蟲機(jī)制有效,但是這樣會帶來服務(wù)器資源的消耗,也容易對正常用戶的行為產(chǎn)生誤判的可能。
目前的防御技術(shù)缺乏一種形式化和可靠的模型,大都依賴于人為決策和設(shè)置。針對這種情況,本發(fā)明設(shè)計了一種Web服務(wù)器的惡意爬蟲防御策略選擇方法。該方法以博弈論基本思想為基礎(chǔ),給出了爬蟲在正常爬行、惡意爬行的前提下,服務(wù)器采取防御或不防御策略時,各自所獲得收益的計算分析方法,并基于不完全信息動態(tài)博弈和基于不完全信息重復(fù)博弈,給出了兩種典型博弈狀態(tài)下的均衡解求解方法,給出了服務(wù)器采取不同防御策略的分析方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于理性決策、避免主觀盲目監(jiān)測的Web服務(wù)器的惡意爬蟲防御策略選擇方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710601523.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實現(xiàn)方法
- 一種WEB業(yè)務(wù)實現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標(biāo)和Web服務(wù)輸出參數(shù)的Web服務(wù)組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導(dǎo)航的方法和設(shè)備及電子裝置
- 用于將web站點轉(zhuǎn)換為目標(biāo)web app站點的方法和裝置
- 用于防護(hù)WEB漏洞的方法和設(shè)備
- 一種Web攻擊報告生成方法、裝置、設(shè)備及計算機(jī)介質(zhì)
- 惡意特征數(shù)據(jù)庫的建立方法、惡意對象檢測方法及其裝置
- 用于檢測惡意鏈接的方法及系統(tǒng)
- 惡意信息識別方法、惡意信息識別裝置及系統(tǒng)
- 主動式移動終端惡意軟件網(wǎng)絡(luò)流量數(shù)據(jù)集獲取方法及系統(tǒng)
- 一種大數(shù)據(jù)告警平臺系統(tǒng)及其方法
- 一種追溯惡意進(jìn)程的方法、裝置及存儲介質(zhì)
- 一種相似惡意軟件推薦方法、裝置、介質(zhì)和設(shè)備
- 軟件惡意行為檢測方法及系統(tǒng)
- 惡意樣本增強(qiáng)方法、惡意程序檢測方法及對應(yīng)裝置
- 惡意語音樣本的確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





