[發明專利]一種基于隱馬爾可夫模型的惡意網絡爬蟲檢測方法在審
| 申請號: | 201710281763.1 | 申請日: | 2017-04-26 |
| 公開(公告)號: | CN106961444A | 公開(公告)日: | 2017-07-18 |
| 發明(設計)人: | 羅日紅;蔡君 | 申請(專利權)人: | 廣東億榮電子商務有限公司;廣東技術師范學院 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L12/24;H04L29/08;G06F17/30 |
| 代理公司: | 廣州市深研專利事務所44229 | 代理人: | 陳雅平 |
| 地址: | 510000 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隱馬爾可夫 模型 惡意 網絡 爬蟲 檢測 方法 | ||
技術領域
本發明屬于計算機軟件技術領域。
背景技術
良性的網絡爬蟲是搜索引擎不可或缺的部分。良性網絡爬蟲一般會考慮對網站服務質量的影響,以及嚴格遵守網站的數據抓取規則。然而,惡意網絡爬蟲則以抓取網站的有用信息為目的,不顧及抓取行為對網站的不良影響,甚至違反網站對數據的保護聲明,強行抓取網站的敏感信息,造成用戶隱私泄露和商業機密暴露等不良后果?,F有的網絡爬蟲只能區分爬蟲流量和一般用戶流量,卻難以區分良性和惡意網絡爬蟲。
發明內容
本發明的目的是提出一種基于隱馬爾可夫模型的惡意網絡爬蟲檢測方法。惡意網絡爬蟲在未經允許的情況下惡意抓取網站的敏感信息以及隱私數據,同時其野蠻式的流量行為模式也會對網站的服務質量造成不良的影響?,F有網絡爬蟲檢測方法不能準確地識別出惡意網絡爬蟲,誤判率較高。因此,本發明專利提出一種新的基于隱馬爾可夫模型的惡意網絡爬蟲檢測方法。具體包括:(1)基于HMM的用戶HTTP流量建模,(2)基于HTTP的網絡爬蟲行為建模。
本發明的技術方案如下:
1、HTTP流量行為模型的構建方法
1.1基本定義:
觀測值:以HTTP請求的資源類型為觀測值,則HTTP流量的觀測序列表示為其中表示第c個連接在t時刻請求的資源類型。觀測值空間為:V={1,2,...,N}。
狀態值為t時刻連接c請求的頁面,表示為y=y1,y2,...yT,狀態值空間為S={1,2,...,M}。
HTTP流量行為的參數模型表示為:θ={π,A,B},其中,π為初始模型的初始狀態概率,A為狀態轉移概率,B為觀測概率。
1.2基于前向后向算法的HTTP流量行為模型的參數估計技術
HTTP流量行為模型參數估計任務是由采集到的觀測值序列估計出對應的隱半馬爾可夫模型的參數。本發明采用著名的前向后向算法解決HTTP流量行為模型的參數估計問題,具體如下所述。
1)定義前向后向變量:
αt(j)=P[St=j,o1:t|θ]
βt(j)=P[ot+1:T|St=j,θ]
2)前向后向算法的初始化:
α1(j)=πj,
βT(j)=1。
3)迭代推導過程:
4)計算中間變量:
ξt(i,j)=P[St=i,St+1=j,o1:T|λ]=αt(i)aijbj(ot+1)βt+1(j)
5)參數更新公式
其中,當ot=vk時,I(ot=vk)=1,否則I(ot=vk)=0。
1.3網絡爬蟲的檢測方法
HTTP流量包括了一般用戶的HTTP流量以及網絡爬蟲的HTTP流量,要檢測惡意網絡爬蟲流量,首先要把網絡爬蟲流量和一般用戶的流量分離,為此本發明專利通過異常檢測的方法來識別網絡爬蟲流量。
計算一般用戶的HTTP流量行為模型觀測序列的熵:
計算一般用戶的HTTP流量的觀測序列的熵的標準方差為σ0,均值為μ0,
檢測網絡爬蟲時,首先計算監測序列的熵的均值為μ,再以|μ-μ0|為異常檢測量,如果|μ-μ0|≥3σ0,則為異常狀態。
1.4惡意網絡爬蟲的檢測方法
計算良性網絡爬蟲行為模型觀測序列的熵:
計算良性網絡爬蟲的觀測序列的熵的標準方差為σ0,均值為μ0,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東億榮電子商務有限公司;廣東技術師范學院,未經廣東億榮電子商務有限公司;廣東技術師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710281763.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種報文的過濾方法及裝置
- 下一篇:基于FPGA硬件并行流水線的報文解析裝置





