[發明專利]基于MapReduce的網站運行狀態監控與異常檢測無效
| 申請號: | 201210095037.8 | 申請日: | 2012-03-31 |
| 公開(公告)號: | CN102724059A | 公開(公告)日: | 2012-10-10 |
| 發明(設計)人: | 鄒權;唐振坤;蔣文瑞;林琛 | 申請(專利權)人: | 常熟市支塘鎮新盛技術咨詢服務有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24 |
| 代理公司: | 蘇州廣正知識產權代理有限公司 32234 | 代理人: | 張利強 |
| 地址: | 215500 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 mapreduce 網站 運行 狀態 監控 異常 檢測 | ||
1.基于MapReduce的網站運行狀態監控與異常檢測,其特征在于,該發明依次含有以下步驟:
狀態監控
分析異常狀態碼,采用線性回歸策略自動匯報異常情況
日志記錄中的狀態碼能有效反應出網站的運行狀態,常見的異常狀態碼有:?
3xx?-?重定向?
客戶端瀏覽器必須采取更多操作來實現請求;
例如,瀏覽器可能不得不請求服務器上的不同的頁面,或通過代理服務器重復該請求;
常見:301(永久定向)、302(臨時定向)?
4xx?-?客戶端錯誤?
發生錯誤,客戶端似乎有問題;
例如,客戶端請求不存在的頁面,客戶端未提供有
效的身份驗證信息;
常見:404(未找到,不存在)?
5xx?-?服務器錯誤?
通過日志抽出每日這三類異常狀態碼,觀察網站的運行狀態,常見作用如:?
找出死鏈接?
找出臨時重定向(搜索引擎蜘蛛不喜歡臨時重定向)?對于404,需要檢查這個文件是否存在,如果文件存在而返回了404?則可能是因為服務器不穩定因素造成,可能是服務器本身問題也可能是被攻擊;
如果文件本身就不存在而蜘蛛還會去爬那個不存在的頁面,則是因為還有其他頁面有鏈接到那個不存在的頁面
每秒訪問次數和流量統計,并計算當日平均每秒訪問次數和流量統,及排名前10的每秒訪問次數和流量
訪問流量的匯報用于告訴預報是否有采集程序在大量抓取網站數據,這種行為會嚴重影響網站的服務性能,通過報告每日排名前10的每秒訪問次數和流量及平均指標,能直觀的反應出是否有采集程序的出現
蜘蛛爬蟲統計分析
蜘蛛的來訪數量以及頻率是網站健康程度與網站權重的指標之一?
統計搜索引擎蜘蛛的抓取頻率主要作用在于:?
1.預測其關鍵詞排名情況:?
如果以前蜘蛛每天要來成百上千次,那么這個時候你的網站是具備吸引力,往往關鍵詞的表現也比較穩健,而當蜘蛛來訪次數發生比較大減少時,說明你的網站發生了問題,可能是因為改版、或者遭受了懲罰等等原因,這個時候通過來訪次數減少,你就應該有一種預感,關鍵詞排名要發生變動了;
2.發現搜索引擎訪問了哪些沒必要的東西、圖片,然后可以用robots.txt?文件禁用,因為這樣可以讓蜘蛛更多的去訪問有用的東西,從而讓網站更多的被收錄
頁面分區板塊訪問排名
統計各個板塊的頁面訪問量,是分析網站內容、排版是否有吸引力的最直接方式
說明:以上狀態監控各步驟均采用MapReduce并行模型
特征異常檢測
MapReduce模型并行統計出每日訪問量過萬的IP,保存做進一步的分析
對于符合步驟1的IP,檢察其用戶代理信息為空的幾率,如果幾率大于閾值T1,則進入下一步的分析
繼續檢察滿足步驟1,2的IP,驗證其請求資源類型的分布結構(HTML、XML、CSS、JS),如果請求HTML的幾率大于閾值T2,進入下一步分析
對于滿足步驟1,2,3的IP,采用MapReduce并行模型統計當前IP的訪問頻率,如果訪問頻率大于閾值T3,則當前IP被判定為異常采集程序
流量峰值檢測
正常網站的訪問流量一般較為平穩,雖然也有峰值頻發的情況,但都呈現出一定的規律性,如新聞網站的上午時間通常出現高峰,而周末的上午時間則流量小于工作日;足球直播網站的高峰通常出現在周末晚間;股票網站在工作日的9點至15點訪問量較高;
通過在進行日志分析設定此與類相關的經驗規則,可有助于流量檢測的精確性和可靠性;
本程序通過指定天、星期、時等信息來指定已經發現的訪問規律,如下表格所示:
在與日志文件相關聯的同名規則文件中,可指定上述規則信息;
在上面表格的例1中,意即在每天早上的7:00至9:00時段,會出現一些訪問流量高峰;
當檢測到這些高峰時,可默認為是正常流量訪問;
而例2則表示每周六均會出現較高的流量高峰,因此設定這些合理規則可在搜索異常流量峰值訪問時,提高程序的可靠性;
步驟(3.2):獲取流量整體偏差
通過觀察,流量整體偏差直接可反映出訪問流量的分布情況,訪問情況均勻正常的流量表現為較低的偏差值,而異常頻發的日志流量則表現為較高的偏差值,而整體偏差則反映著該網站的整體流量訪問情況;
步驟(3.3):搜索異常峰值訪問點
通過設定窗口w和偏差系數k初始值,程序將以固定的窗口單位來檢測時間區間內的峰值訪問;
首先,程序會首先通過計算該時間區間的流量偏差S’,與整體訪問流量偏差S進行比較,如果S’>k*S,則表明該窗口區間w內存在著異常峰值;
然后通過連續向后不斷檢測該區間,直到找到最大的峰值點,判斷該峰值點是否出現在先前定義的網站合理規則定義中,如果是則報告該峰值為正常,并提示匹配規則,否則報告異常流量峰值訪問,以醒目紅色狀態提醒;
決策樹學習訪問規則
在流量峰值檢測階段,網站每次的訪問流量將會通過異常峰值搜索算法標記出,這些異常峰值不僅會觸發異常警報,提醒管理員注意當前流量狀態,也會進一步提供操作界面給管理員分析當前狀態的真實情況;
步驟(4.2):手動糾正異常流量
如果在當前的異常峰值屬于正常,意即當前的訪問規則中沒有此類規則,屬于誤報情況,則會通過管理員在操作界面中的交互操作,提供進一步的學習,以提高程序監控與檢測的準確率;
步驟(4.3):決策樹學習訪問規則
決策樹學習通過把實例從根節點排列到某個葉子節點來分類實例,葉子節點即為實例所屬的分類;
樹上的每一個節點說明了對實例的某個屬性的測試,并且該節點的每一個后繼分支對應于該屬性的一個可能值;
在這里,我們首先針對網站日志訪問記錄提取各個特征屬性如下:天、星期、時間、流量值、異常與否,同時應用能處理連續屬性的C4.5決策樹學習算法,在其基礎上,還加入增量學習的特性,使得學習過程不僅能完成網站訪問規則的提取,同時還能滿足網站日志訪問流式記錄的特點,在不丟失原有學習規則的基礎上,加入新的數據,進行進一步的學習;
步驟(4.4):更新網站訪問規則
在完成決策樹學習階段后,系統會將這些學習到的新規則動態地更新到流量異常檢測階段中,從而提高異常檢測的準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于常熟市支塘鎮新盛技術咨詢服務有限公司,未經常熟市支塘鎮新盛技術咨詢服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210095037.8/1.html,轉載請聲明來源鉆瓜專利網。





