[發(fā)明專利]一種日志分析處理方法及裝置有效
| 申請?zhí)枺?/td> | 202110841202.9 | 申請日: | 2021-07-26 |
| 公開(公告)號: | CN113297051B | 公開(公告)日: | 2022-03-04 |
| 發(fā)明(設(shè)計(jì))人: | 胡小榮;鄭鐵樵;張博 | 申請(專利權(quán))人: | 云智慧(北京)科技有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 日志 分析 處理 方法 裝置 | ||
1.一種日志分析處理方法,其特征在于,基于語義信息將日志分為正常日志與錯誤日志,進(jìn)一步基于語義信息檢測錯誤日志中包含的異常類型,并結(jié)合日志來源模式對日志進(jìn)行分析,包括:
獲取來自多種中間組件的日志信息,對所述多種中間組件的日志信息,構(gòu)建不同的正則表達(dá)式,分別作為不同組件的日志模式,對所述日志模式通過模式匹配的方式,檢測所述日志信息的來源,得到日志的來源信息;
對所述日志信息進(jìn)行語義分析,得到至少一種日志類型的日志信息,
其中,對所述日志信息進(jìn)行語義分析,得到至少一種日志類型的日志信息,包括:
對所述日志信息進(jìn)行語義分析,得到日志描述信息,
根據(jù)所述日志描述信息,對所述日志信息進(jìn)行向量化,得到日志向量,具體實(shí)現(xiàn)方式包括:對日志描述信息進(jìn)行預(yù)處理,所述預(yù)處理包括命名實(shí)體識別、分詞、停用詞過濾、大小寫轉(zhuǎn)換中的至少一種處理,再利用通用數(shù)據(jù)集與日志信息混合訓(xùn)練詞向量,利用訓(xùn)練好的詞向量庫將日志信息向量化表示,
將所述日志向量輸入訓(xùn)練好的日志分類模型進(jìn)行處理,得到至少一種日志類型的日志信息,所述日志類型包括:正常日志類型和錯誤日志類型,
其中,所述日志分類模型通過以下過程進(jìn)行訓(xùn)練:
獲取日志信息數(shù)據(jù)訓(xùn)練集,
對所述日志信息數(shù)據(jù)訓(xùn)練集進(jìn)行語義分析,得到用于訓(xùn)練的日志信息的日志描述信息,
根據(jù)所述用于訓(xùn)練的日志信息的日志描述信息,對所述日志信息數(shù)據(jù)訓(xùn)練集中的日志信息進(jìn)行標(biāo)注,得到包括正常日志信息的第一訓(xùn)練集以及包括錯誤日志信息的第二訓(xùn)練集,其中,根據(jù)日志描述信息進(jìn)行日志分類,首先對日志信息進(jìn)行標(biāo)注,將日志信息數(shù)據(jù)訓(xùn)練集中的每一條日志標(biāo)注為正常日志或者錯誤日志,標(biāo)注方式具體是:首先對日志進(jìn)行去重與模式識別,然后針對每一個日志模板進(jìn)行標(biāo)注,
對所述第一訓(xùn)練集以及第二訓(xùn)練集中的日志信息進(jìn)行向量化處理,得到輸入第一預(yù)設(shè)分類模型的第一日志向量,
將所述第一日志向量輸入所述第一預(yù)設(shè)分類模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的所述日志分類模型,
其中,對所述第一訓(xùn)練集以及第二訓(xùn)練集中的日志信息進(jìn)行向量化處理,得到輸入第一預(yù)設(shè)分類模型的第一日志向量,包括:
對所述第一訓(xùn)練集中的訓(xùn)練日志信息的日志描述信息進(jìn)行預(yù)處理,得到第一預(yù)處理結(jié)果,所述預(yù)處理包括命名實(shí)體識別、分詞、停用詞過濾、大小寫轉(zhuǎn)換中的至少一種處理,
對所述第二訓(xùn)練集中的訓(xùn)練日志信息的日志描述信息進(jìn)行預(yù)處理,得到第二預(yù)處理結(jié)果,所述預(yù)處理包括命名實(shí)體識別、分詞、停用詞過濾、大小寫轉(zhuǎn)換中的至少一種處理,
利用詞向量庫對所述第一預(yù)處理結(jié)果和所述第二預(yù)處理結(jié)果進(jìn)行向量化,得到輸入所述第一預(yù)設(shè)分類模型的第一日志向量,其中,詞向量庫包括:通用語料+系統(tǒng)/中間件日志語料+業(yè)務(wù)日志語料訓(xùn)練詞向量,向量維度為預(yù)設(shè)維度,詞庫大小為預(yù)設(shè)值,利用該詞向量庫對日志數(shù)據(jù)進(jìn)行向量化,利用訓(xùn)練好的詞向量庫將預(yù)處理后的日志向量化表示;
對所述至少一種日志類型的日志信息中的錯誤日志類型的日志信息進(jìn)行分析處理,得到至少一種異常類型,
其中,對所述至少一種日志類型的日志信息中的錯誤日志類型的日志信息進(jìn)行分析處理,得到至少一種異常類型,包括:
對所述至少一種日志類型的日志信息中的錯誤日志類型的日志信息進(jìn)行向量化,得到錯誤日志類型的日志向量,
將所述錯誤日志類型的日志向量輸入訓(xùn)練好的異常分類模型進(jìn)行處理,得到至少一種異常類型,
其中,所述異常分類模型通過以下過程進(jìn)行訓(xùn)練:
獲取錯誤日志類型的日志信息數(shù)據(jù)訓(xùn)練集,
對所述錯誤日志類型的日志信息數(shù)據(jù)訓(xùn)練集進(jìn)行預(yù)處理,得到第三預(yù)處理結(jié)果,
對所述第三預(yù)處理結(jié)果中的日志信息進(jìn)行異常類型標(biāo)注,得到至少一種異常類型訓(xùn)練集,
對所述至少一種異常類型訓(xùn)練集進(jìn)行向量化處理,得到輸入第二預(yù)設(shè)分類模型的第二日志向量,
將所述第二日志向量輸入所述第二預(yù)設(shè)分類模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的所述異常分類模型;
將所述日志信息的日志來源、日志類型和所述異常類型輸出,所述異常類型包括:文件/文件夾操作異常、網(wǎng)絡(luò)異常、數(shù)據(jù)庫異常、硬件異常、系統(tǒng)異常。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云智慧(北京)科技有限公司,未經(jīng)云智慧(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110841202.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





