[發明專利]一種高召回率的日志異常檢測方法有效
| 申請號: | 202110404453.0 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN113064873B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 李虎;曾毅峰;路進鋒;吳霄林 | 申請(專利權)人: | 上海浦東發展銀行股份有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/2458;G06F11/30 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 林君如 |
| 地址: | 200002 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 召回 日志 異常 檢測 方法 | ||
本發明涉及一種高召回率的日志異常檢測方法,遍歷每一個已知日志模式,對每一個已知日志模式做相同的判斷,提取日志模式數量序列,在提取的統一的日志模式數量序列下,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,同時檢測單條日志異常、日志序列異常和不變量異常。與現有技術相比,本發明具有大幅度提升日志召回率和準確率,提高檢測結果可解釋性等優點。
技術領域
本發明涉及日志異常檢測技術領域,尤其是涉及一種高召回率的日志異常檢測方法。
背景技術
隨著軟件系統向大規模,復雜的分布式系統發展,這些系統經常遭受錯誤和漏洞的困擾。當發生系統故障(例如服務故障和服務中斷)時,多個服務可能會受到故障的影響,這可能會導致系統的重大損失。系統異常檢測技術旨在定位這些系統故障。這種技術在系統維護中起著至關重要的作用。對于工程師來說,及時準確地發現異常是必要的,以便及時查明原因。系統中有許多類型的數據可用于異常檢測和故障排除。在大多數大型系統中普遍可用的日志數據具有大量信息,并且包含關鍵系統狀態,事件和運行時消息的記錄。
目前業界把日志異常分為以下三種類型:
i.單條日志就能反映的異常,如“shut down”日志;
ii.不變量異常,又稱為數量關系異常,如一段時間內的connect相關的日志數量與end connect相關的日志數量不相等;
iii.序列異常,又稱為任務流異常,即多條日志序列反映出來的異常,例如程序中某個任務的某個部分發生了異常,導致這個部分不能正常執行,其它部分正常執行,表現在日志中就是在這個任務流日志數據中少了某些日志。
現有的日志異常檢測方法一般分為三個部分:
a.日志解析:算法較多,各有優劣,目的都是將非結構化的日志數據轉換為結構化的數據。單條日志可以粗略的分為三個部分,打印時間、其它信息(層級(INFO,WARNING等)等)、日志內容。日志解析算法的難點在于如何確定日志內容中的固定部分和變量部分,業界用的較多的是通過大量的歷史日志數據,通過聚類算法來自動提取日志模式。幾千萬行日志對應的日志模式數量可能在幾十到幾百不等。
b.特征提取:日志解析之后就可以將原始日志數據(日志序列,單個元素是一條日志字符串)轉換為日志模式下標序列。一般是將從歷史數據中解析出來的全部日志模式保存為一個有序的列表,稱為總日志模式序列,然后依次將日志序列中的日志映射為其日志模式在日志模式序列中的下標,這樣就得到了日志模式下標序列。部分算法可能還需要做進一步的特征提取。
c.日志分析:日志分析就是設計一種算法利用特征提取后的數據來分析日志的異常情況。現在業界出名的日志分析算法有Deeplog等。Deeplog等算法重點關注的都是日志異常中的序列異常,采用的方法也比較類似,即訓練一個神經網絡模型,以一定窗長的日志序列數據為輸入,預測輸入日志序列的下一個日志是什么(模型實際輸入為對應的日志模式下標序列,輸出為各個日志模式的出現概率組成的一維列表)。檢測邏輯是,如果真實的下一個日志對應的日志模式不在模型預測的Top k個中即視為發生了異常。
然而現有的日志異常檢測方法存在以下不足:
1、準確性和召回率低:大多數公司或者機構的系統都是并發的,且各個模塊的處理速度和是否會一起執行是不穩定的,導致打印的日志序列的順序并不能很好的反映系統的任務流。因此盡管采用了top k的方式來提高模型的泛化性能,通過一定長度的日志序列預測下一個日志的方式來分析日志異常的模型的準確性和召回率在實際運用中的準確性、召回率都不盡人意。
2、可解釋性低:現有的很多日志分析算法,如DeepLog等類似一個黑盒,雖然可以判定異常,但是無法很好的給出異常的解釋,而異常解釋是在實際運維場景中十分關注的重點。
3、無法增量學習:當系統更新之后,若要保證模型的準確性,需要重新訓練模型,無法自動實時迭代,這將會消耗大量時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海浦東發展銀行股份有限公司,未經上海浦東發展銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110404453.0/2.html,轉載請聲明來源鉆瓜專利網。





