[發明專利]一種日志解析方法、裝置及設備有效
| 申請號: | 202210496308.4 | 申請日: | 2022-05-09 |
| 公開(公告)號: | CN114595136B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 鐘威;鄭鐵樵;張博 | 申請(專利權)人: | 云智慧(北京)科技有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06F16/35;G06F40/216;G06F40/289 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 日志 解析 方法 裝置 設備 | ||
本發明公開了一種日志解析方法、裝置及設備,方法包括:獲取待解析日志數據;將所述待解析日志數據進行分詞處理,得到日志序列;確定所述日志序列的子序列n?gram,所述n?gram是按照長度n切分所述日志序列,得到的長度為n的子序列,n為正整數;獲取所述n?gram在n?gram頻率字典中的頻率,所述n?gram頻率字典包括多個n?gram以及每個n?gram對應的頻率,所述頻率是n?gram在歷史日志序列中,該n?gram出現的次數,所述歷史日志序列是形成所述n?gram頻率字典所用到的日志序列;根據所述頻率確定自動閾值,根據所述自動閾值對所述日志序列進行解析,獲得解析結果。本發明的方案可以實現海量日志數據的高效解析。
技術領域
本發明涉及信息處理技術領域,特別是指一種日志解析方法、裝置及設備。
背景技術
日志是一種半結構化數據,記錄著系統的行為及故障等信息,自動化日志分析可以幫助運維人員監控系統狀態,檢測系統異常。一般的,日志解析是自動化日志分析中的第一步,解析的結果可以用于異常檢測、故障診斷等下游任務中。
現有的一些日志解析算法,已經能取得非常高的解析精度。而隨著信息化發展,日志數量增長迅速,在不損失解析精度的前提下,提高解析算法的效率及并行能力將是解析算法中一個非常重要的方向。
發明內容
本發明要解決的技術問題是如何提供一種日志解析方法、裝置及設備,以實現海量日志的高效解析,有效提高運維系統的異常檢測、故障診斷等下游任務的準確率。
為解決上述技術問題,本發明的技術方案如下:
一種日志解析方法,包括:
獲取待解析日志數據;
將所述待解析日志數據進行分詞處理,得到日志序列;
確定所述日志序列的子序列n-gram,所述n-gram是按照長度n切分所述日志序列,得到的長度為n的子序列,n為正整數;
獲取所述n-gram在n-gram頻率字典中的頻率,所述n-gram頻率字典包括多個n-gram以及每個n-gram對應的頻率,所述頻率是n-gram在歷史日志序列中,該n-gram出現的次數,所述歷史日志序列是形成所述n-gram頻率字典所用到的日志序列;
根據所述頻率,確定自動閾值;
根據所述自動閾值對所述日志序列進行解析,獲得解析結果,所述解析結果包括:所述待解析日志數據的日志模式;所述日志模式包括:所述日志序列中最終留下的靜態文本和預設字符所表示的動態變量。
可選的,n大于或者等于2時,確定所述日志序列的子序列n-gram,包括:
將所述日志序列按照長度2切分,得到序列的2-gram;
將所述日志序列按照每次切分長度加1的方式,對所述日志序列進行切分,直到切分長度達到長度k,所述k為大于或者等于2的正整數。
可選的,根據所述頻率,確定自動閾值,包括:
獲取每一個n-gram在所述n-gram頻率字典中出現的次數的眾數和中位數;
將所述眾數和中位數中的較大者,作為所述自動閾值。
可選的,n大于或者等于2時,根據所述自動閾值對所述日志序列進行解析,獲得解析結果,包括:
對每一個所述n-gram,按照所述n的值從大到小的順序,根據所述自動閾值,確定n為k時的n-gram中的靜態文本和動態變量;
將所述靜態文本從所述日志序列濾除,得到剩余的部分為n=k時的動態變量候補;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云智慧(北京)科技有限公司,未經云智慧(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210496308.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種錨桿拉拔實驗用輔助設備及實驗儀
- 下一篇:一種鉆桿庫以及鉆機





