[發明專利]一種日志數據處理方法、裝置、設備及介質在審
| 申請號: | 202110787310.2 | 申請日: | 2021-07-13 |
| 公開(公告)號: | CN113392084A | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 呂健 | 申請(專利權)人: | 華青融天(北京)軟件股份有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F40/289;G06K9/62;G06Q10/06 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 安衛靜 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 日志 數據處理 方法 裝置 設備 介質 | ||
本申請公開了一種日志數據處理方法、裝置、設備及介質,應用于數據處理技術領域,用以解決現有技術存在的在集群、微服務和分布式等應用系統中,難以靈活、及時地發現有價值的日志數據的問題。具體為:利用應用系統中各個節點的歷史日志數據,對日志數據評分模型進行訓練,并在獲取當前日志數據后,基于當前日志數據的日志特征向量,采用日志數據評分模型,得到當前日志數據的罕見度評分。這樣,通過利用應用系統中各個節點的歷史日志數據對日志數據評分模型進行訓練,并利用日志數據評分模型對當前日志數據進行罕見度評分,不僅實現了對應用系統中各個節點的日志數據融合、整理和分類,還能夠快速精準地識別出更有價值的日志數據。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種日志數據處理方法、裝置、設備及介質。
背景技術
日志數據是記錄和定位應用運行過程中產生的各種調用和故障等信息,各個應用可以記錄和保存各自產生的日志數據。
然而,目前,大多數的應用都采用集群、微服務和分布式等系統架構,應用的日志數據分布在應用系統中的各個節點上,難以靈活、及時地發現有價值的日志數據。
發明內容
本申請實施例提供了一種日志數據處理方法、裝置、設備及介質,用以解決現有技術存在的在集群、微服務和分布式等應用系統中,難以靈活、及時地發現有價值的日志數據的問題。
本申請實施例提供的技術方案如下:
一方面,本申請實施例提供了一種日志數據處理方法,包括:
獲取當前日志數據;
基于當前日志數據的日志特征向量,采用日志數據評分模型,得到當前日志數據的罕見度評分;
其中,日志數據評分模型用于從各個日志數據分組中確定當前日志數據所屬的目標日志數據分組,并基于當前日志數據與目標日志數據分組中的各個歷史日志數據的相似度,確定當前日志數據的罕見度評分;各個日志數據分組是在日志數據評分模型的訓練過程中對應用系統中各個節點的歷史日志數據進行分類訓練獲得的。
在一種可能的實施方式中,獲取當前日志數據之后,還包括:
基于當前日志數據的數據類型,確定目標常量庫;
基于目標常量庫,對當前日志數據進行常量識別,得到當前日志數據包含的目標常量;
將當前日志數據包含的目標常量替換為目標常量對應的常量標簽。
在一種可能的實施方式中,獲取當前日志數據之后,還包括:
對當前日志數據進行分詞,得到當前日志數據的詞序列;
基于詞序列包含的各個分詞各自對應的表征數字,對詞序列進行向量化,得到當前日志數據的日志特征向量。
在一種可能的實施方式中,日志數據評分模型至少包括日志分類模塊和罕見度評分模塊。
在一種可能的實施方式中,基于當前日志數據的日志特征向量,采用日志數據評分模型,得到當前日志數據的罕見度評分,包括:
通過日志分類模塊,確定當前日志數據與應用系統中各個節點的歷史日志數據之間的距離,并基于距離不大于第一閾值的歷史日志數據所屬的日志數據分組,確定當前日志數據所屬的目標數據分組;
通過日志評分模塊,確定當前日志數據與目標日志數據分組中的各個歷史日志數據的相似度,并基于相似度不小于第二閾值的歷史日志數據的數目,確定當前日志數據的罕見度評分。
在一種可能的實施方式中,基于當前日志數據的日志特征向量,采用日志數據評分模型,得到當前日志數據的罕見度評分之后,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華青融天(北京)軟件股份有限公司,未經華青融天(北京)軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110787310.2/2.html,轉載請聲明來源鉆瓜專利網。





