[發明專利]一種自動化日志異常檢測方法及系統在審
| 申請號: | 201910320115.1 | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110210512A | 公開(公告)日: | 2019-09-06 |
| 發明(設計)人: | 丁健 | 申請(專利權)人: | 北京億陽信通科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 劉廣達 |
| 地址: | 100093 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 日志數據 日志 異常檢測 異常點 分類模型 機器學習 特征集合 檢測 自動化 預處理 數據處理領域 人工成本 時間成本 特征提取 訓練樣本 異常操作 原始日志 數據集 無監督 算法 預警 指令 發現 分組 監督 | ||
1.一種自動化日志異常檢測方法,其特征在于,包括:
步驟S1:對原始日志數據進行預處理得到第一日志數據集;
步驟S2:對所述第一日志數據集進行分組得到多個第二日志數據集,對各第二數據集進行特征提取得到對應的各特征集合;
步驟S3:根據無監督異常點發現算法及異常操作指令在各第二日志數據集中發現對應的日志異常點;
步驟S4:對所述各特征集合和對應的日志異常點進行訓練,得到對應的各有監督機器學習分類模型;
步驟S5:選取與待檢測日志數據對應的有監督機器學習分類模型對所述待檢測日志數據進行檢測,得到日志異常檢測結果。
2.根據權利要求1所述的方法,其特征在于,所述步驟S1,具體包括:
步驟S1-1:對原始日志數據進行清洗,并保留日志正文和網元類型;
步驟S1-2:對清洗后的原始日志數據進行去參數化及合并處理得到參數泛化日志正文列表;
步驟S1-3:對所述參數泛化日志正文列表中的日志正文分組,并根據各組中各日志正文的長度確定各日志正文的日志模式;
步驟S1-4:根據相同日志模型的日志正文之間的編輯距離確定各日志模式的模板,并根據所述模板確定各日志模式的類型號,得到含有所述網元類型、日志模式類型號的第一日志數據集。
3.根據權利要求2所述的方法,其特征在于,所述步驟S2,具體包括:
步驟S2-1:根據所述網元類型對所述第一日志數據集進行分組,得到各網元類型的第二日志數據集;
步驟S2-2:分別統計在第一預設時間段內各第二日志數據集中每個日志模式的出現次數,得到與所述各第二日志數據集對應的由日志模式類型號和出現次數構成的各特征集合。
4.根據權利要求3所述的方法,其特征在于,所述步驟S3,具體包括:
步驟S3-1:根據無監督異常點發現算法,分別對各第二日志數據集進行訓練得到對應的各日志異常點集合;
步驟S3-2:根據歷史操作指令集,并結合領域知識構建異常操作指令集;
步驟S3-3:根據所述異常操作指令集,分別對所述各日志異常點集合進行驗證,得到各日志異常點集合中各日志異常點的類型。
5.根據權利要求4所述的方法,其特征在于,所述步驟S4,具體包括:
步驟S4-1:根據所述各特征集合和對應的各日志異常點集合構建對應的各異常點訓練集;
步驟S4-2:根據隨機森林算法,分別對所述各異常點訓練集進行訓練得到對應的各有監督機器學習分類模型。
6.一種自動化日志異常檢測系統,其特征在于,包括:
預處理模塊,用于對原始日志數據進行預處理得到第一日志數據集;
分組模塊,用于對所述預處理模塊得到的第一日志數據集進行分組得到多個第二日志數據集;
提取模塊,用于對所述分組模塊得到的各第二數據集進行特征提取得到對應的各特征集合;
異常點發現模塊,用于根據無監督異常點發現算法及異常操作指令在所述分組模塊得到的各第二日志數據集中發現對應的日志異常點;
訓練模塊,用于對所述提取模塊得到的各特征集合和異常點發現模塊發現的對應的日志異常點進行訓練,得到對應的各有監督機器學習分類模型;
異常點檢測模塊,選取與待檢測日志數據對應的有監督機器學習分類模型對所述待檢測日志數據進行檢測,得到日志異常檢測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京億陽信通科技有限公司,未經北京億陽信通科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910320115.1/1.html,轉載請聲明來源鉆瓜專利網。





