[發(fā)明專利]基于最大頻繁模式的動(dòng)態(tài)規(guī)則庫(kù)構(gòu)建方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810092166.9 | 申請(qǐng)日: | 2018-01-30 |
| 公開(kāi)(公告)號(hào): | CN108173876B | 公開(kāi)(公告)日: | 2020-11-06 |
| 發(fā)明(設(shè)計(jì))人: | 肖如良;陳雄;蔡聲鎮(zhèn);熊金波;倪友聰;龔平;許力 | 申請(qǐng)(專利權(quán))人: | 福建師范大學(xué) |
| 主分類號(hào): | H04L29/06 | 分類號(hào): | H04L29/06 |
| 代理公司: | 福州元?jiǎng)?chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 蔡學(xué)俊 |
| 地址: | 350117 福建省福州市閩侯縣*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 最大 頻繁 模式 動(dòng)態(tài) 規(guī)則 構(gòu)建 方法 | ||
本發(fā)明涉及一種基于最大頻繁模式的動(dòng)態(tài)規(guī)則庫(kù)構(gòu)建方法,包括以下步驟:輸入Web日志數(shù)據(jù)集,并對(duì)其進(jìn)行數(shù)據(jù)過(guò)濾,將時(shí)間格式轉(zhuǎn)化為時(shí)間戳,將IP和URL映射為數(shù)字;進(jìn)行用戶識(shí)別和會(huì)話識(shí)別,構(gòu)造WASD;遍歷WASD的每行,過(guò)濾出每個(gè)用戶的近期訪問(wèn)行為,構(gòu)成該用戶的近期訪問(wèn)序列,進(jìn)而由所有用戶的近期訪問(wèn)序列構(gòu)成DWASD;構(gòu)造Spark運(yùn)行環(huán)境變量
技術(shù)領(lǐng)域
本發(fā)明涉及Web服務(wù)器異常檢測(cè)技術(shù)領(lǐng)域,特別涉及一種基于最大頻繁模式的動(dòng)態(tài)規(guī)則庫(kù)構(gòu)建方法。
背景技術(shù)
隨著應(yīng)用層異常檢測(cè)算法的不斷深入研究,針對(duì)Web服務(wù)器的異常檢測(cè)已經(jīng)取得一定成績(jī)。攻擊者為了更好地達(dá)到攻擊目的,逃避已有的檢測(cè)方法,針對(duì)Web服務(wù)器的應(yīng)用層攻擊方式呈現(xiàn)多樣化、隱蔽化的趨勢(shì)。而現(xiàn)有的Snort系統(tǒng)面臨著需要大量的精力維護(hù)其規(guī)則庫(kù),缺乏專業(yè)知識(shí)指導(dǎo)建立規(guī)則的問(wèn)題。WASD是分析Web用戶行為的一種重要格式,一種普遍的研究方式是從WASD中挖掘出正常用戶行為序列模式,再將用戶行為模式與正常模式庫(kù)進(jìn)行比較來(lái)檢測(cè)異常。
由于將正常用戶行為序列模式作為規(guī)則庫(kù)的構(gòu)建基礎(chǔ),然而由于Web流量存在時(shí)效性,如有重大新聞發(fā)生的新聞網(wǎng)站流量數(shù)據(jù)必然比平時(shí)更具突發(fā)性,因此將完整的WASD作為數(shù)據(jù)基礎(chǔ),不僅不能體現(xiàn)當(dāng)前Web流量的時(shí)效性,而且隨著Web流量的增加,會(huì)導(dǎo)致系統(tǒng)的計(jì)算量上升。
序列模式挖掘是指從海量序列中挖掘出重復(fù)頻率較高的模式,其關(guān)鍵是將時(shí)間屬性融入關(guān)聯(lián)模式。目前已提出許多序列模式挖掘算法,加拿大西蒙-弗雷澤大學(xué)裴健提出了一種基于序列模式增長(zhǎng)策略的 PrefixSpan(Prefix-Projected Pattern Growth, 前綴投影模式挖掘)算法。該方法比傳統(tǒng)的Apriori算法和廣義序列模式算法有效。PrefixSpan算法由于將原始序列模式庫(kù)轉(zhuǎn)變?yōu)橥队皵?shù)據(jù)庫(kù)從而節(jié)省了空間,然而需要更多的時(shí)間遞歸地構(gòu)建投影數(shù)據(jù)庫(kù),時(shí)間效率低。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于最大頻繁模式的動(dòng)態(tài)規(guī)則庫(kù)構(gòu)建方法,該方法有利于降低計(jì)算量,快速有效地構(gòu)建出更加具有時(shí)效性的規(guī)則庫(kù)。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于最大頻繁模式的動(dòng)態(tài)規(guī)則庫(kù)構(gòu)建方法,包括以下步驟:
(1)輸入Web日志數(shù)據(jù)集,然后對(duì)Web日志數(shù)據(jù)集進(jìn)行數(shù)據(jù)過(guò)濾,將時(shí)間格式轉(zhuǎn)化為時(shí)間戳并獲取當(dāng)前時(shí)間,將IP和URL映射為數(shù)字;
(2)進(jìn)行用戶識(shí)別和會(huì)話識(shí)別,構(gòu)造Web用戶訪問(wèn)序列數(shù)據(jù)庫(kù)WASD;
(3)遍歷WASD的每行數(shù)據(jù),其中一行數(shù)據(jù)表示一個(gè)用戶的訪問(wèn)序列,根據(jù)用戶訪問(wèn)行為距當(dāng)前時(shí)間的遠(yuǎn)近過(guò)濾出每個(gè)用戶的近期訪問(wèn)行為,構(gòu)成該用戶的近期訪問(wèn)序列,進(jìn)而由所有用戶的近期訪問(wèn)序列構(gòu)成動(dòng)態(tài)Web用戶訪問(wèn)序列數(shù)據(jù)庫(kù)DWASD;
(4)給定最小支持度閾值
(5)計(jì)算最近最小支持度
(6)第一次掃描數(shù)據(jù)庫(kù),使用countPrefix(_._1)函數(shù)對(duì)前綴進(jìn)行權(quán)重計(jì)數(shù),并使用filter過(guò)濾函數(shù)來(lái)提取頻繁1項(xiàng)集;
(7)通過(guò)得到的頻繁1項(xiàng)集分割搜索空間序列模式,構(gòu)建各頻繁1項(xiàng)集的投影數(shù)據(jù)庫(kù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建師范大學(xué),未經(jīng)福建師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810092166.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





