[發明專利]一種Web服務器的惡意爬蟲防御策略選擇方法有效
| 申請號: | 201710601523.5 | 申請日: | 2017-07-21 |
| 公開(公告)號: | CN107517200B | 公開(公告)日: | 2020-05-26 |
| 發明(設計)人: | 曾劍平;張曉惠 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/08;H04L12/26 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 web 服務器 惡意 爬蟲 防御 策略 選擇 方法 | ||
1.一種Web服務器的惡意爬蟲防御策略選擇方法,其特征在于,邏輯架構包括Web服務器和爬蟲,在這樣的邏輯架構下,爬蟲有兩種爬行方式,即正常爬行和惡意爬行;當爬蟲采取正常爬行方式時,即對應于用戶的正常訪問方式和爬蟲程序的正常訪問方式,反之當采取惡意爬行時,即代表爬蟲程序或用戶的惡意訪問;在這邏輯架構下,惡意爬蟲防御策略選擇方法的具體步驟為:
(1)計算Web服務器和爬蟲的收益與代價
對于Web服務器而言,其付出的代價在于部署各種軟硬件設施用于辨別正常訪問行為和惡意訪問行為,以及對惡意行為實施阻斷;而其收益在于廣告推送、信息反饋;對于爬蟲而言,其代價在于惡意訪問所需要的投入,其收益在于在預期的時間內獲得所需要的頁面內容;
(2)基于不完全信息動態博弈,計算博弈模型的均衡解
根據步驟(1)的收益與代價,計算Web服務器采取防御策略的期望收益和采取不防御策略時的期望收益,當這兩個收益相等時即可得到服務器選擇防御或不防御策略的臨界點;
(3)基于不完全信息重復博弈,計算博弈模型的均衡解
從爬蟲方的角度,計算當某時刻之前爬蟲采取正常訪問行為;
而之后分別選擇惡意訪問行為和正常訪問行為時所獲得的收益,當正常訪問行為時所獲得的收益大于惡意訪問行為時所獲得的收益,爬蟲不會采取惡意訪問行為的策略,因此,滿足這個條件的博弈參數是服務器策略的最佳選擇;
步驟(1)中所述的Web服務器和爬蟲的收益與代價如下:
Web服務器的收益、代價:
bc:服務器方的防御成本;
bs:服務器方成功防御之后的收益;
b1:服務器不加以防御帶來的損失;
R:服務器被正常訪問時帶來的收益,或者是惡意爬蟲給Web服務器帶來的正面反饋;
I:爬蟲惡意爬取時給Web服務器帶來的損失;
爬蟲的收益、代價:
ac:爬蟲方的攻擊成本,即選擇惡意爬行所需要的付出;
a1:惡意爬蟲被Web服務器識別出后所帶來的懲罰;
a2:爬蟲以正常方式訪問Web服務器時所獲得的收益;
as:爬蟲方成功實現惡意爬取之后所帶來的收益;
在計算收益時,定義兩個變量表明Web服務器檢測惡意爬蟲的性能:
pd:Web服務器將采取惡意爬行方式的爬蟲判斷為惡意爬蟲的概率,即正確檢測;
pn:Web服務器將采取正常訪問方式的爬蟲判斷為惡意爬蟲的概率,即錯誤檢測;
基于前述定義的變量,Web服務器和爬蟲在各自策略下的收益矩陣如下表所示;矩陣中的每個元素的形式是(a,b),其中a表示爬蟲的收益,b表示Web服務器的收益;
步驟(2)所述基于不完全信息動態博弈,計算博弈模型的均衡解的流程如下:
在不完全信息下,Web服務器無法知道爬蟲的信息,但是可以根據歷史數據或其他途徑對每個來訪的爬蟲做事先估計,判斷其為惡意爬蟲訪問的概率,即假設惡意爬行的先驗概率為p,則正常行為爬蟲的先驗概率為1-p;爬蟲在爬行過程中能采取惡意爬行或正常爬行,假設這兩種行為出現的概率分別為T、1-T;因此,對于Web服務器而言,其采取防御策略的期望收益為:
Ef=p[T(-bc+pdbs-(1-pd)(b1+I-R))+(1-T)(-bc-pnR+(1-pn))R]+(1-p)(-bc-pnR+(1-pn)R) (1)
當采取不防御的策略時,其期望收益為:
Enf=p[T(-b1-I+R)+(1-T)R]+(1-p)R (2)
那么,當Web服務器決定采取何種策略時,在理性的情況下,當Ef<Enf時,采取不防御的策略,當Ef>Enf時,它應當采取防御策略;
因此,當Ef=Enf時,服務器選擇防御策略與不防御策略時的收益相當,此時求得的惡意爬行概率T為臨界點T*,求得:
當爬蟲選擇惡意爬行方式的概率TT*時,則Web服務器選擇不防御所能獲得的收益大于Web服務器選擇防御所能獲得的收益,反之則采取防御策略為最佳選擇。
2.根據權利要求1所述的Web服務器的惡意爬蟲防御策略選擇方法,其特征在于,步驟(3)所述基于不完全信息重復博弈,計算博弈模型的均衡解的流程如下:
假設pt為在t時段爬蟲采取正常爬行方式的先驗概率,那么,在t時間,爬蟲的期望收益為:
EDt=(1-pt)(-ac-pdal+(1-pd)as)+pt(-ac+as) (4)
假設在t-1時間之前爬蟲方都沒有暴露身份,即采取正常爬行方式,而在t-1發起惡意爬取行為,令δ為時段t的貼現因子,把未來的收益乘以貼現值折算成現值,即把將來的收益放在當前考慮,則爬蟲方的期望收益為:
在t-1時段不發起惡意行為,而等到t時間再發起惡意爬行時的收益:
EDt-1+δEDt=(1-pt-1)(a2-pna2-pna1)+pt-1(a2)+δ(-ac+as) (6)
假設兩個時段的先驗概率相等,即pt-1=pt;
由此,根據公式(5)、(6),得到:
a2+pn(a1+a2)(pt-1)-as+ac+pd(a1+as)(1-pt+δ)>0 (7)
為了使得爬蟲繼續采取正常爬行行為,應當保證t-1時段正常爬行的收益大于惡意爬行的收益,而Web服務器可以通過改變一些參數來確保該條件成立;根據(7)式條件,Web服務器采取的具體措施包括:增大懲罰a1,減小爬蟲方成功實現惡意爬取之后所帶來的收益as。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710601523.5/1.html,轉載請聲明來源鉆瓜專利網。





