[發(fā)明專利]一種基于LCS的Chameleon實時日志聚類方法有效
| 申請?zhí)枺?/td> | 202010216937.8 | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111400500B | 公開(公告)日: | 2023-09-05 |
| 發(fā)明(設(shè)計)人: | 葛曉波;楊辰;殷傳旺 | 申請(專利權(quán))人: | 上海擎創(chuàng)信息技術(shù)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/279;G06F40/186;G06F18/22;G06F18/23 |
| 代理公司: | 北京科億知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 201203 上海市浦東新區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 lcs chameleon 實時 日志 方法 | ||
本發(fā)明提供一種基于LCS的Chameleon實時日志聚類方法,方法包括:第一步:分詞,將原始日志處理成tokens序列,包括敏感詞庫提出、正則化替換、分詞器分詞、數(shù)值處理和過濾;第二步:日志分組;第三步:匹配模板:第四步:模板優(yōu)化。本發(fā)明提供的Chameleon日志聚類算法,能夠有效的幫助運維人員進行診斷以及定位問題,提高效率和解決問題的能力。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機領(lǐng)域,具體涉及一種基于LCS的Chameleon實時日志聚類方法。
背景技術(shù)
日志分析對于一個企業(yè)來說是尤為重要的,作為企業(yè)的運維人員如不能實時的了解服務(wù)器的安全狀況,會給企業(yè)造成難以估計的損失。對日志進行分析不僅可以了解到軟硬件設(shè)備的運行狀況,還可以了解到報錯日志的源頭,判斷出錯誤是由應用引發(fā)的還是系統(tǒng)本身引起的等,從而及時的進行補救,更好地提高企業(yè)軟硬件設(shè)備的高可用性。日志分析最直接明顯的兩個目的,一為網(wǎng)站安全自檢查,了解服務(wù)器上正在發(fā)生的安全事件,二為應急事件中的分析取證。但是,面對與日俱增的日志信息,利用傳統(tǒng)的方式對日志進行分析已經(jīng)不能滿足企業(yè)的要求,基于AI技術(shù)的日志分析算法就顯得尤為重要。
本發(fā)明提供一種基于LCS的Chameleon實時日志聚類方法,旨在提取日志的共有模板,檢測日志中包含的失敗和操作異常信息,防止出現(xiàn)嚴重的數(shù)據(jù)丟失和宕機,還可以用來檢測和改善系統(tǒng)中的安全漏洞和故障,以及診斷各種類型的操作問題、軟硬件設(shè)計缺陷等。與現(xiàn)有的日志聚類算法相比,具有以下優(yōu)勢:
1)本發(fā)明具有實時日志聚類功能,可以不斷的增加日志模板并且可以對模板內(nèi)容進一步泛化處理,使模板越來越通用;
2)本發(fā)明能夠?qū)θ罩具M行并行處理;
3)本發(fā)明可以自動進行模板調(diào)優(yōu),模板可讀性較好,并支持人工修改模板;
4)本發(fā)明可以智能識別重要內(nèi)容,不被泛化。
發(fā)明內(nèi)容
本發(fā)明根據(jù)日志結(jié)構(gòu)的特性,創(chuàng)新性地提出基于LCS(longest?common?series)的日志聚類算法,支持離線訓練以及實時聚類,同時采用前綴樹、倒序表等技術(shù)來提高算法性能,解決當前日志進行智能化分析的問題。
一種基于LCS的Chameleon實時日志聚類方法,其特征在于:所述方法包括如下步驟:
第一步:分詞,將原始日志處理成tokens序列;
Step1:敏感詞庫提出
對原始日志中的敏感詞進行提取,并將其類型設(shè)置為important,不允許泛化;
Step2:正則化替換
利用正則表達式,將原始日志中詳細的IP地址、端口號以及時間等利用$IP、$IPPort以及$DateTime等字符串替換,并進行簡單封裝;
Step3:分詞器分詞
為對原始日志進行精準分詞,利用Chameleon分詞功能,一鍵切分中文、英文以及中英文混合等不同類型的內(nèi)容;
Step4:數(shù)值處理
將原始日志中的數(shù)值替換為$NUM;
Step5:過濾
根據(jù)配置規(guī)則將需要忽略的詞進行處理;
第二步:日志分組
對處理后的原始日志進行分組處理,以便能夠快速定位問題;根據(jù)機器學習分類算法,對原始日志進行分組,這些組包括環(huán)境層、硬件層、操作系統(tǒng)層、基礎(chǔ)架構(gòu)層、應用層等;Chameleon根據(jù)日志所屬分組,分別進行聚類;
第三步:匹配模板
Step1:前綴樹匹配
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海擎創(chuàng)信息技術(shù)有限公司,未經(jīng)上海擎創(chuàng)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010216937.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





