[發明專利]一種高召回率的日志異常檢測方法有效
| 申請號: | 202110404453.0 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN113064873B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 李虎;曾毅峰;路進鋒;吳霄林 | 申請(專利權)人: | 上海浦東發展銀行股份有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/2458;G06F11/30 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 林君如 |
| 地址: | 200002 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 召回 日志 異常 檢測 方法 | ||
1.一種高召回率的日志異常檢測方法,其特征在于,遍歷每一個已知日志模式,對每一個已知日志模式做相同的判斷,提取日志模式數量序列,在提取的統一的日志模式數量序列下,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,同時檢測單條日志異常、日志序列異常和不變量異常;所述日志模式數量序列通過訓練過程中保存的總日志模式序列和日志解析算法轉換得到;
對每一個已知日志模式做相同的判斷,提取日志模式數量序列的具體內容為:
獲取指定時間窗口的日志序列,引入一個未知日志模式和異常日志模式,利用時間滑動窗口提取日志模式數量序列;
引入一個未知日志模式和異常日志模式,利用時間滑動窗口提取日志模式數量序列的具體內容為:
獲取指定時間窗口的日志序列,并對該指定時間窗口的日志序列進行訓練,通過訓練過程中保存的總日志模式序列和日志解析算法,將其轉換為日志模式數量序列,假設訓練過程中保存的總日志模式序列的大小為N,則日志模式數量序列的長度為N+2,將日志模式數量序列中前N個元素與總日志模式序列中的模式通過下標一一對應,將最后一個元素對應為未知模式,即未在訓練數據中出現的模式,將倒數第二個元素對應為異常日志模式。
2.根據權利要求1所述的高召回率的日志異常檢測方法,其特征在于,采用并行方式遍歷每一個已知日志模式。
3.根據權利要求1所述的高召回率的日志異常檢測方法,其特征在于,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,對單條日志異常進行檢測的具體內容為:
創建并維持一個異常日志模式庫,將初始時的異常日志模式庫設定為空,在檢測時,若日志模式數量的倒數第二個元素不為0,反饋單條日志模式錯誤信號,并將對應的異常日志模式和對應的數量反映在檢測結果中;若日志模式數量的最后一個元素不為空,反饋模式新增的異常信號,并將對應的新增日志模式和數量反映在檢測結果中,再結合用戶核實反饋進行確定,若用戶核實反饋為檢測無誤,即新增的日志模式為異常日志模式,則將新增的日志模式更新至異常日志模式庫中,若用戶核實反饋為檢測錯誤,即新增的日志模式為引入的正常日志模式,則將新增的日志模式更新到總日志模式序列中。
4.根據權利要求1所述的高召回率的日志異常檢測方法,其特征在于,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,采用同比環比的方式對日志序列異常進行檢測;采用同比環比的方式對日志序列異常進行檢測的具體內容為:
遍歷每一個已知日志模式,對每一個已知日志模式執行相同的邏輯判斷,即設定時間窗口長度,當時間窗口大小設定完成后,將每日的時間進行多個數據點劃分;設置一個時間偏移量t,利用實際日志數量與歷史同時刻加同時刻左、右各t個時間窗口的數據比判斷日志序列異常。
5.根據權利要求4所述的高召回率的日志異常檢測方法,其特征在于,利用實際日志數量與歷史同時刻加同時刻左、右各t個時間窗口的數據比判斷日志序列異常的具體內容為:
召回當前日志模式所在歷史數據中同時間窗口及偏移t個窗口的內的數量組成一個歷史日志數量序列,計算歷史日志數量序列的中位數作為其期望日志數量,隨后將歷史日志數量序列的每一個值減去這期望日志數量得到殘差序列后,利用核密度估計模型計算其日志數量的上、下閾值,當實際的日志數量超過上閾值或者低于下閾值時,執行異常告警。
6.根據權利要求1所述的高召回率的日志異常檢測方法,其特征在于,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,采用新型不變量挖掘和分析算法對不變量異常進行檢測;采用新型不變量挖掘和分析算法對不變量異常進行檢測的具體內容為:
1)將訓練日志序列通過時間滑動窗口切分為多個日志子序列,將每一個日志子序列轉換為日志模式數量序列,進而獲取日志模式數量矩陣,其中橫軸表示各個時間窗口,縱軸表示各個日志模式;
2)假設總日志模式序列的大小為N,則潛在的二元不變量為N!/2*(N-2)!個,利用剪枝策略進行判斷,若一個日志模式在日志模式數量矩陣中對應的取值不為零的日志模式數量序列的個數小于常數K,則剪去所有與該日志模式相關的潛在不變量;對于日志模式A和日志模式B的組合,假設二者在日志模式數量矩陣中對應的取值分別不為零和同時不為零的日志模式數量序列的個數分別為numLA,numLB和numLA_B,若numLA_B/max(numLA,numLB)0.9,則剪去這個不變量組合,對于剩下的不變量組合,從二者同時不為零的日志模式數量序列中提取各自的數量序列LA、LB,隨后利用這兩個數據訓練線性回歸模型M,基于LA和LB計算M的決定系數score,若score0.8,則將該不變量組合視為一組不變量,隨后計算|numA–w*numB-b|/(numA+numB)/2序列作為判決值,其中w為斜率,b為截距,numA和numB分別為日志模式A和B對應的日志數量,進而根據3-sigma原則計算檢測閾值thres;
3)若步驟2)計算得到的判決值大于對應的score,則判斷出現不變量異常,并將對應的不變量和線性關系反映在檢測結果中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海浦東發展銀行股份有限公司,未經上海浦東發展銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110404453.0/1.html,轉載請聲明來源鉆瓜專利網。





