[發(fā)明專利]一種基于隱馬爾可夫模型的惡意網(wǎng)絡(luò)爬蟲檢測方法在審
| 申請?zhí)枺?/td> | 201710281763.1 | 申請日: | 2017-04-26 |
| 公開(公告)號: | CN106961444A | 公開(公告)日: | 2017-07-18 |
| 發(fā)明(設(shè)計)人: | 羅日紅;蔡君 | 申請(專利權(quán))人: | 廣東億榮電子商務(wù)有限公司;廣東技術(shù)師范學(xué)院 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L12/24;H04L29/08;G06F17/30 |
| 代理公司: | 廣州市深研專利事務(wù)所44229 | 代理人: | 陳雅平 |
| 地址: | 510000 廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 隱馬爾可夫 模型 惡意 網(wǎng)絡(luò) 爬蟲 檢測 方法 | ||
1.一種基于隱馬爾可夫模型的惡意網(wǎng)絡(luò)爬蟲檢測方法,其特征是,
HTTP流量行為模型的構(gòu)建方法
1.1基本定義:
觀測值:以HTTP請求的資源類型為觀測值,則HTTP流量的觀測序列表示為其中表示第c個連接在t時刻請求的資源類型。觀測值空間為:V={1,2,...,N};
狀態(tài)值為t時刻連接c請求的頁面,表示為y=y(tǒng)1,y2,...yT,狀態(tài)值空間為S={1,2,...,M};
HTTP流量行為的參數(shù)模型表示為:θ={π,A,B},其中,π為初始模型的初始狀態(tài)概率,A為狀態(tài)轉(zhuǎn)移概率,B為觀測概率;
1.2基于前向后向算法的HTTP流量行為模型的參數(shù)估計技術(shù)
HTTP流量行為模型參數(shù)估計任務(wù)是由采集到的觀測值序列估計出對應(yīng)的隱半馬爾可夫模型的參數(shù);本發(fā)明采用著名的前向后向算法解決HTTP流量行為模型的參數(shù)估計問題,具體如下所述;
1)定義前向后向變量:
αt(j)=P[St=j(luò),o1:t|θ]
βt(j)=P[ot+1:T|St=j(luò),θ]
2)前向后向算法的初始化:
α1(j)=πj,
βT(j)=1;
3)迭代推導(dǎo)過程:
4)計算中間變量:
ξt(i,j)=P[St=i,St+1=j(luò),o1:T|λ]=αt(i)aijbj(ot+1)βt+1(j)
5)參數(shù)更新公式
其中,當(dāng)ot=vk時,I(ot=vk)=1,否則I(ot=vk)=0;
1.3網(wǎng)絡(luò)爬蟲的檢測方法
HTTP流量包括了一般用戶的HTTP流量以及網(wǎng)絡(luò)爬蟲的HTTP流量,要檢測惡意網(wǎng)絡(luò)爬蟲流量,首先要把網(wǎng)絡(luò)爬蟲流量和一般用戶的流量分離,為此本發(fā)明專利通過異常檢測的方法來識別網(wǎng)絡(luò)爬蟲流量。
計算一般用戶的HTTP流量行為模型觀測序列的熵:
計算一般用戶的HTTP流量的觀測序列的熵的標(biāo)準(zhǔn)方差為σ0,均值為μ0,
檢測網(wǎng)絡(luò)爬蟲時,首先計算監(jiān)測序列的熵的均值為μ,再以|μ-μ0|為異常檢測量,如果|μ-μ0|≥3σ0,則為異常狀態(tài)。
2.根據(jù)權(quán)利要求1所述的基于隱馬爾可夫模型的惡意網(wǎng)絡(luò)爬蟲檢測方法,其特征是,其特征是
HTTP流量行為模型的構(gòu)建方法
1.4惡意網(wǎng)絡(luò)爬蟲的檢測方法
計算良性網(wǎng)絡(luò)爬蟲行為模型觀測序列的熵:
計算良性網(wǎng)絡(luò)爬蟲的觀測序列的熵的標(biāo)準(zhǔn)方差為σ0,均值為μ0,
檢測惡意網(wǎng)絡(luò)爬蟲時,首先計算監(jiān)測序列的熵的均值為μ,再以|μ-μ0|為異常檢測量,如果|μ-μ0|≥3σ0,則為異常狀態(tài)。
3.根據(jù)權(quán)利要求1所述的基于隱馬爾可夫模型的惡意網(wǎng)絡(luò)爬蟲檢測方法,其特征是,HTTP流量行為模型的構(gòu)建方法
實施流程
步驟1:訓(xùn)練數(shù)據(jù)預(yù)處理,生成網(wǎng)絡(luò)爬蟲檢測的訓(xùn)練數(shù)據(jù)集;
步驟2:采用前向后向算法估計模型的參數(shù),得到基于HMM的HTTP流量模型;
步驟3:使用訓(xùn)練好的模型計算監(jiān)測序列的熵;
步驟4:計算流量異常檢測量|μ-μ0|;
步驟5:通過判斷|μ-μ0|≥3σ0是否成立,來識別網(wǎng)絡(luò)爬蟲流量;
步驟6:提取良性爬蟲檢測的訓(xùn)練數(shù)據(jù)集;
步驟7:采用前向后向算法估計良性網(wǎng)絡(luò)爬蟲的模型參數(shù);
步驟8:使用訓(xùn)練好的良性網(wǎng)絡(luò)爬蟲模型計算網(wǎng)絡(luò)爬蟲序列的熵;
步驟9:計算異常檢測量|μ-μ0|;
步驟10:通過判斷|μ-μ0|≥3σ0是否成立,來識別惡意網(wǎng)絡(luò)爬蟲流量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東億榮電子商務(wù)有限公司;廣東技術(shù)師范學(xué)院,未經(jīng)廣東億榮電子商務(wù)有限公司;廣東技術(shù)師范學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710281763.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種報文的過濾方法及裝置
- 下一篇:基于FPGA硬件并行流水線的報文解析裝置
- 認(rèn)知無線電系統(tǒng)中基于隱馬爾可夫模型的頻譜接入方法
- 一種基于隱馬爾可夫模型的人臉識別方法
- 基于隱馬爾可夫模型的英文簡歷關(guān)鍵字段抽取方法
- 基于遺傳算法的隱馬爾科夫模型在主機(jī)風(fēng)險評估中的應(yīng)用
- 用于推薦系統(tǒng)的數(shù)據(jù)處理方法、數(shù)據(jù)處理裝置和電子設(shè)備
- SDN數(shù)據(jù)中心基于隱馬爾可夫模型的多徑路由選徑方法
- 基于高斯混合的因子隱馬爾可夫負(fù)荷分解方法
- 一種外骨骼步態(tài)辨識方法和裝置
- 隱馬爾可夫模型在地圖匹配中的優(yōu)化方法及GPS定位方法
- 基于隱馬爾可夫模型的Costas信號解碼方法、系統(tǒng)及存儲介質(zhì)
- 惡意特征數(shù)據(jù)庫的建立方法、惡意對象檢測方法及其裝置
- 用于檢測惡意鏈接的方法及系統(tǒng)
- 惡意信息識別方法、惡意信息識別裝置及系統(tǒng)
- 主動式移動終端惡意軟件網(wǎng)絡(luò)流量數(shù)據(jù)集獲取方法及系統(tǒng)
- 一種大數(shù)據(jù)告警平臺系統(tǒng)及其方法
- 一種追溯惡意進(jìn)程的方法、裝置及存儲介質(zhì)
- 一種相似惡意軟件推薦方法、裝置、介質(zhì)和設(shè)備
- 軟件惡意行為檢測方法及系統(tǒng)
- 惡意樣本增強(qiáng)方法、惡意程序檢測方法及對應(yīng)裝置
- 惡意語音樣本的確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)





