[發明專利]計算機系統日志模板的自動生成和在線更新方法與系統有效
| 申請號: | 201910035072.2 | 申請日: | 2019-01-15 |
| 公開(公告)號: | CN111435343B | 公開(公告)日: | 2023-02-24 |
| 發明(設計)人: | 侯志榮;劉嘉偉;李影 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/16;G06F16/23;G06F40/186 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算機系統 日志 模板 自動 生成 在線 更新 方法 系統 | ||
1.一種計算機系統日志模板的自動生成和在線更新方法,包括離線挖掘階段和在線更新階段;離線挖掘階段采用分組聚類方法,從給定日志數據集合中挖掘得到日志模板列表;在線更新階段基于新采集的日志進行逐條分析,實現對現有日志模板自動更新;包括如下步驟:
1)對計算機日志數據集LC進行預處理,生成待分析日志集LC’;
2)進行離線挖掘,包括如下步驟:
21)日志分組;包括:
211)首先針對待分析日志集LC’,對每行日志進行分詞,得到該行日志的TOKEN列表;統計該行的日志長度,
212)然后根據各行日志的不同長度,將日志集劃分成n個不同的分組LCS1,LCS2,…LCSn;
22)子組聚類;包括:
221)對日志集分組LCS1,LCS2,…LCSn的每個分組中的日志行,計算兩行日志的嚴格相似度S1;計算方法具體是:
按照從前向后的順序,比對兩行日志每個位置的TOKEN;
如果兩行日志的TOKEN字符及順序完全相同,則該TOKEN位置的相似度Si=1;
如果不完全相同,則該TOKEN位置的相似度Si=0;
兩行日志的嚴格相似度S1為兩行日志各TOKEN的相似度Si的和再除以日志長度;
222)基于嚴格相似度對全部日志集合進行聚類分析,進行拆分,生成多個日志集合子組;具體方法是:計算S1的最大值MAX(S1),并將具有MAX(S1)的全部日志行組成為一個子組;
進行多輪迭代,直到日志集分組中的全部原始日志分析處理完,即完成子組聚類;
23)模板合并;執行如下操作:
231)對于步驟22)生成的每個日志集合子組,提取對應的日志模板;
232)對于同一分組內各子組生成的日志模板,計算近似相似度S2,并基于S2進行模板合并;逐項選擇日志模板,計算其與其他日志模板的近似相似度,具體方法是:
按照從前向后的順序,比對每個位置的TOKEN,如果TOKEN的字符及順序完全相同,則該TOKEN位置的相似度Si=1;如果不完全相同,相似度Si為相同字符數占總字符數的比率,相似度Si1;
兩項日志模板的近似相似度S2即為各TOKEN相似度Si的和除以日志長度;
如果兩項日志模板的近似相似度S2大于設定閾值,則將該兩項日志模板合并為一項,即:相似度Si=1的TOKEN保留;相似度Si1的TOKEN位置用自定義的變量替代符替代;
重復上述近似相似度計算與合并操作,直至分組內原各項日志模板都處理完畢;
對每個日志分組中的日志子組模板進行合并操作,即獲得每個日志分組的日志模板集合;
每個日志分組中的日志模板長度均相同;不同日志分組的日志模板長度并不相同;
24)進行跨組整合,對滿足跨組整合條件的不同日志分組的不同日志模板進行合并;
具體方法是:針對不同日志分組的日志模板進行兩兩比較分析:
基于變量替代符,按從前向后的順序,將日志模板中的常量TOKEN切分成多個不同的最大常量序列LCS;如果兩項日志模板且分出的多個LCS完全相同,則將兩項日志模板進行合并,即只保留長度最短的日志模板;
通過上述步驟生成日志模板;
3)在線更新階段,執行如下操作:
31)生成候選日志集合:
對于新采集的日志,逐行與已生成的日志模板進行比較:如果日志模板中表示常量的各TOKEN與新采集日志對應位置的TOKEN全部相同,表示該日志對應的日志模板已存在;否則,表示該日志可能對應一項新的日志模板,將該行日志存入候選日志集合;
32)當候選日志集合中的日志數量達到設定閾值時,將候選日志集合作為日志數據集,執行步驟1)~2),得到新日志模板列表{E1’,E2’,..,EM’};
33)將新日志模板列表與現有日志模板列表進行比對,更新日志模板列表:
對新日志模板逐項進行分析,如果在現有日志模板列表中已存在,則跳過;如果不存在:首先,執行步驟24),新日志模板中的新日志若滿足跨組整合條件,將其與現有日志模板列表中的項進行整合;否則直接將其加入現有日志模板列表中;
通過上述步驟,實現基于分組聚類的日志模板的自動生成和更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910035072.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水體立體化養殖系統
- 下一篇:一種轉子、液力緩速器及轉子的制造工藝





