[發明專利]一種基于LCS的Chameleon實時日志聚類方法有效
| 申請號: | 202010216937.8 | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111400500B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 葛曉波;楊辰;殷傳旺 | 申請(專利權)人: | 上海擎創信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/279;G06F40/186;G06F18/22;G06F18/23 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 201203 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lcs chameleon 實時 日志 方法 | ||
1.一種基于LCS的Chameleon實時日志聚類方法,其特征在于:所述方法包括如下步驟:
第一步:分詞,將原始日志處理成tokens序列;
Step1:敏感詞庫提出
對原始日志中的敏感詞進行提取,并將其類型設置為important,不允許泛化;
Step2:正則化替換
利用正則表達式,將原始日志中詳細的IP地址、端口號以及時間利用$IP、$IPPort以及$DateTime字符串替換,并進行簡單封裝;
Step3:分詞器分詞
為對原始日志進行精準分詞,利用Chameleon分詞功能,一鍵切分中文、英文以及中英文混合不同類型的內容;
Step4:數值處理
將原始日志中的數值替換為$NUM;
Step5:過濾
根據配置規則將需要忽略的詞進行處理;
第二步:日志分組
對處理后的原始日志進行分組處理,以便能夠快速定位問題;根據機器學習分類算法,對原始日志進行分組,這些組包括環境層、硬件層、操作系統層、基礎架構層、應用層;Chameleon根據日志所屬分組,分別進行聚類;
第三步:匹配模板
Step1:前綴樹匹配
每個分組根據該分組下模板的公共tokens創建一個前綴樹,前綴樹用來快速搜索合適的模板,減少LCS的計算量;對于通常的日志,直接通過前綴樹來匹配到模板,成功率大于90%,前綴樹匹配失敗后,則進入下一環節,進行倒序表匹配;
Step2:倒序表匹配
利用倒序表匹配減少LCS的計算量,在Chameleon中,每個分組下維護一張倒序表,記錄每個token在每個模板中的計數;利用這張倒序表,計算當前日志的tokens序列與每個模板的公共tokens數量,當公共tokens數量達到相似度要求時,LCS才達到要求,篩選出候選模板;
Step3:LCS匹配
倒序表匹配后,得到候選模板列表,將候選模板依次與當前日志進行LCS計算,LCS的長度達到閾值要求,而且重要信息沒有被泛化、日志長度也合適,則認為當前模板匹配成功;沒有模板匹配成功時,則以該日志為中心創建一個新模板,添加到模板庫中;創建模板時,根據相似度閾值similarity和日志tokens長度,計算support和maxAcceptLength,公式如下:
日志tokens長度不超過模板的maxAcceptLength,且日志tokens與模板tokens的LCS長度達到support,同時重要詞沒有被泛化,則認為該日志與該模板匹配;
Step4:處理泛化內容為位置參數;
Step5:上一步發生模板泛化或創建新模板時,則更新模板庫、倒序表、前綴樹;
第四步:模板優化
Step1:模板拆分
根據位置參數的取值情況來分析參數的重要程度,參數較重要時,則按參數取值拆分模板;
Step2:模板合并
先根據文本相似度歸類相似模板,然后對比相似模板間的常量部分與位置參數,對于參數類型一致的模板將進行合并。
2.根據權利要求1所述的一種基于LCS的Chameleon實時日志聚類方法,其特征在于:在所述第二步中日志分組,分組包括環境層、硬件層、操作系統層、基礎架構層、應用層等。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海擎創信息技術有限公司,未經上海擎創信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010216937.8/1.html,轉載請聲明來源鉆瓜專利網。





