[發明專利]一種基于LCS的Chameleon實時日志聚類方法有效

申請號：	202010216937.8	申請日：	2020-03-25
公開（公告）號：	CN111400500B	公開（公告）日：	2023-09-05
發明（設計）人：	葛曉波;楊辰;殷傳旺	申請（專利權）人：	上海擎創信息技術有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F40/279;G06F40/186;G06F18/22;G06F18/23
代理公司：	北京科億知識產權代理事務所(普通合伙) 11350	代理人：	湯東鳳
地址：	201203 上海市浦東新區***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 lcs chameleon 實時日志方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于LCS的Chameleon實時日志聚類方法，其特征在于：所述方法包括如下步驟：

第一步：分詞，將原始日志處理成tokens序列；

Step1:敏感詞庫提出

對原始日志中的敏感詞進行提取，并將其類型設置為important，不允許泛化；

Step2:正則化替換

利用正則表達式，將原始日志中詳細的IP地址、端口號以及時間利用$IP、$IPPort以及$DateTime字符串替換，并進行簡單封裝；

Step3:分詞器分詞

為對原始日志進行精準分詞，利用Chameleon分詞功能，一鍵切分中文、英文以及中英文混合不同類型的內容；

Step4:數值處理

將原始日志中的數值替換為$NUM；

Step5:過濾

根據配置規則將需要忽略的詞進行處理；

第二步：日志分組

對處理后的原始日志進行分組處理，以便能夠快速定位問題；根據機器學習分類算法，對原始日志進行分組，這些組包括環境層、硬件層、操作系統層、基礎架構層、應用層；Chameleon根據日志所屬分組，分別進行聚類；

第三步：匹配模板

Step1:前綴樹匹配

每個分組根據該分組下模板的公共tokens創建一個前綴樹，前綴樹用來快速搜索合適的模板，減少LCS的計算量；對于通常的日志，直接通過前綴樹來匹配到模板，成功率大于90％，前綴樹匹配失敗后，則進入下一環節，進行倒序表匹配；

Step2:倒序表匹配

利用倒序表匹配減少LCS的計算量，在Chameleon中，每個分組下維護一張倒序表，記錄每個token在每個模板中的計數；利用這張倒序表，計算當前日志的tokens序列與每個模板的公共tokens數量，當公共tokens數量達到相似度要求時，LCS才達到要求，篩選出候選模板；

Step3:LCS匹配

倒序表匹配后，得到候選模板列表，將候選模板依次與當前日志進行LCS計算，LCS的長度達到閾值要求，而且重要信息沒有被泛化、日志長度也合適，則認為當前模板匹配成功；沒有模板匹配成功時，則以該日志為中心創建一個新模板，添加到模板庫中；創建模板時，根據相似度閾值similarity和日志tokens長度，計算support和maxAcceptLength，公式如下：

日志tokens長度不超過模板的maxAcceptLength，且日志tokens與模板tokens的LCS長度達到support，同時重要詞沒有被泛化，則認為該日志與該模板匹配；

Step4:處理泛化內容為位置參數；

Step5:上一步發生模板泛化或創建新模板時，則更新模板庫、倒序表、前綴樹；

第四步：模板優化

Step1:模板拆分

根據位置參數的取值情況來分析參數的重要程度，參數較重要時，則按參數取值拆分模板；

Step2:模板合并

先根據文本相似度歸類相似模板，然后對比相似模板間的常量部分與位置參數，對于參數類型一致的模板將進行合并。

2.根據權利要求1所述的一種基于LCS的Chameleon實時日志聚類方法，其特征在于：在所述第二步中日志分組，分組包括環境層、硬件層、操作系統層、基礎架構層、應用層等。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海擎創信息技術有限公司，未經上海擎創信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】