[發明專利]計算機系統日志模板的自動生成和在線更新方法與系統有效
| 申請號: | 201910035072.2 | 申請日: | 2019-01-15 |
| 公開(公告)號: | CN111435343B | 公開(公告)日: | 2023-02-24 |
| 發明(設計)人: | 侯志榮;劉嘉偉;李影 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/16;G06F16/23;G06F40/186 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算機系統 日志 模板 自動 生成 在線 更新 方法 系統 | ||
本發明公布了一種計算機系統日志模板的自動生成和在線更新方法及系統,包括離線挖掘階段和在線更新階段;離線挖掘階段采用分組聚類方法,從給定日志數據集合中挖掘得到日志模板列表;在線更新階段基于新采集的日志進行逐條分析,實現對現有日志模板自動更新。系統包括:日志預處理模塊、日志分組組件、模板處理組件、模板跨組整合組件、模板匹配組件、模板更新組件。本發明不依賴特定的數據內容和格式,具有很強的泛化能力;可實現對系統日志數據集的自動化分析,生成日志模板,并能針對新采集的日志,提取數據特征,實現日志模板的自動化更新,確保日志模板列表的完備性和及時更新,且運行效率高。
技術領域
本發明涉及計算機系統日志模板挖掘技術領域,尤其涉及一種基于分組聚類的計算機系統日志模板自動生成和在線更新的方法與系統。
背景技術
系統日志是計算機系統運行維護的重要資料,日志分析是異常檢測、故障診斷等運維工作不可或缺的重要手段。近年來,隨著云計算、分布式技術架構的廣泛應用,各企業的IT規模迅速擴大,產生了海量的系統日志。傳統的采用人工方式對日志進行分析的做法變得越來越困難。即便是借助基于規則的自動化輔助分析工具,面對海量、復雜、異構、多變的系統日志數據,日志分析依然是一項巨大挑戰。
針對上述挑戰,近年來,學術界和工業界開始嘗試將機器學習等人工智能方法引入日志分析工作,輔助異常檢測、根因分析以及故障預測等運維工作。日志模板挖掘是上述方法的一項基礎技術。通過日志模板挖掘,可以實現對海量日志數據的抽象和簡化,從而有利于提取日志數據特征,構建機器學習等算法模型。
已有的一些日志模板挖掘方法與系統,大多都是基于一定規模日志數據集進行離線模板挖掘,由于數據規模的限制,往往無法覆蓋系統日志模板的全部情形;如果增加日志處理規模,又必然對運行效率帶來嚴重影響。也有一些在線挖掘分析的方法,但往往基于一定的假設條件,如同一模板輸出的日志數據長度一定相同,或者又設置有較多調試參數,泛化能力有待增強。
發明內容
為了克服現有日志模板挖掘方法的不足,本發明提供一種基于分組聚類的日志模板自動生成和在線更新的方法與系統,可實現對系統日志數據集的自動化分析,生成日志模板,并能針對新采集的日志,分析相關數據特征,實現日志模板的自動化更新。本發明運行效率高,且不依賴特定的數據內容和格式,具有很強的泛化能力。
本發明提供的技術方案是:
一種計算機系統日志模板的自動生成和在線更新方法,包括離線挖掘和在線更新兩個階段;離線挖掘階段采用分組聚類方法,從給定日志數據集合中挖掘出日志模板列表;在線更新階段基于新采集的日志進行逐條分析,實現對現有日志模板自動更新。具體包括如下步驟:
1)數據預處理。
針對給定規模的計算機日志數據集LC,完成如下預處理工作:過濾部分非關鍵字段(如時間戳)、完成特定字段的變量替代(比如數字、IP地址等通用字段),生成待分析日志集LC’。
2)離線挖掘階段,包括如下步驟:
21)日志分組;
針對待分析日志集LC’,對每行日志進行分詞,得到該行日志的TOKEN列表,并統計該行日志的長度(如TOKEN數量),然后根據各行日志的不同長度,將日志集劃分成n個不同的分組LCS1,LCS2,…LCSn。
22)子組聚類;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910035072.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水體立體化養殖系統
- 下一篇:一種轉子、液力緩速器及轉子的制造工藝





