[發明專利]多源異構日志分析方法在審
| 申請號: | 202010911771.1 | 申請日: | 2020-09-02 |
| 公開(公告)號: | CN111984515A | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 汪祖民;田紀宇;秦靜;季長清 | 申請(專利權)人: | 大連大學 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 劉斌 |
| 地址: | 116622 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多源異構 日志 分析 方法 | ||
1.一種多源異構日志分析方法,其特征在于,包括如下步驟:
步驟1:根據信息系統所要求的響應時間確定時間窗口的大小;
步驟2:使用SGSE算法對每個時間窗口內的日志數據處理成可供ECC日志分析算法調用的樣本;
步驟3:訓練并使用ECC日志分析模型分析時間窗口下是否正常;
步驟4:呈現日志分析結果。
2.如權利要求1所述的多源異構日志分析方法,其特征在于,模型訓練的步驟如下:
步驟1:將正常、異常時間窗口內的多源異構日志數據的日志數量統計生成日志數量狀態子序列,將時間窗口內每個設備上產生的每個日志種類數量統計生成用戶行為狀態子序列,將時間窗口內每個設備某些重要字段中類型出現的次數進行數量統計生成字段狀態子序列;
步驟2:將每個時間窗口下日志數量狀態子序列中的n個特征、用戶行為狀態子序列中的m個特征、字段狀態子序列中的j個特征生成(n+m+j)個樣本數據集;
步驟3:將每個正常、異常時間窗口內日志數量狀態子序列中的某個特征做為標簽的樣本數據集按照ECC表達式分別與其他正常、異常時間窗口內的樣本數據集兩兩計算出差異值,計算表達式為:
v1=1-v2 (3)
f(tableα)=v1*M′tableα+v2*M″tableα+bias (4)
tableα代表著日志數量狀態子序列中的某個特征做為標簽時所對應的樣本,
tableα′代表正常時間窗口下日志數量狀態子序列中的某個特征做為標簽時所對應的樣本,
tableα″代表異常時間窗口下日志數量狀態子序列中的某個特征做為標簽時所對應的樣本,
Mtableα′為日志數量狀態子序列中的某個特征做為標簽時所對應的樣本與代表正常時間窗口下日志數量狀態子序列中的某個特征做為標簽時所對應的樣本的之間的均方誤差,
Mtableα″為日志數量狀態子序列中的某個特征做為標簽時所對應的樣本與代表異常時間窗口下日志數量狀態子序列中的某個特征做為標簽時所對應的樣本的之間的均方誤差,
bias為偏執,
v1、v2分別為正常時間窗口、異常時間窗口均方誤差的變化系數,訓練時v1=v2;
f(tableα)為受訓練的時間窗口中日志數量狀態子序列中的某個特征做為標簽所計算的差異值;
步驟4:將每個正常時間窗口通過式(1)-(4)與其他正常、異常時間窗口計算出差異值并保存為集合U1,將異常時間窗口通過式(1)-(4)與正常、異常時間窗口計算出差異值并保存為P1,得到正常時間窗口下日志數量狀態子序列的置信區間σ(α)為
σ(α)=[min(U1),max(U1)]∩[min(P1),max(P1)]
步驟5:將每個正常、異常時間窗口內用戶行為狀態子序列中的某個特征做為標簽的樣本數據集按照ECC表達式分別與其他正常、異常時間窗口內的樣本數據集兩兩計算出差異值,計算表達式為:
v3=1-v4 (7)
f(tableβ)=v3*M′tableβ+v4*M″tableβ+bias (8)
tableβ代表著用戶行為狀態子序列中的某個特征做為標簽時所對應的樣本,
tableβ′代表正常時間窗口下用戶行為狀態子序列中的某個特征做為標簽時所對應的樣本,
tableβ″代表異常時間窗口下用戶行為狀態子序列中的某個特征做為標簽時所對應的樣本,
Mtableβ′為用戶行為狀態子序列中的某個特征做為標簽時所對應的樣本與代表正常時間窗口下用戶行為狀態子序列中的某個特征做為標簽時所對應的樣本的之間的均方誤差,
Mtableβ″為用戶行為狀態子序列中的某個特征做為標簽時所對應的樣本與代表異常時間窗口下用戶行為狀態子序列中的某個特征做為標簽時所對應的樣本的之間的均方誤差,
bias為偏執,
v3、v4分別為正常時間窗口、異常時間窗口均方誤差的變化系數,訓練時v3=v4,
f(tableβ)為受訓練的時間窗口中用戶行為狀態子序列中的某個特征做為標簽所計算的差異值;
步驟6:將每個正常時間窗口通過式(5)-(8)與正常、異常時間窗口計算出差異值并保存為集合U2,將異常時間窗口通過式(5)-(8)與正常、異常時間窗口計算出差異值并保存為P2,得到正常時間窗口下字段狀態子序列的置信區間σ(β)為
σ(β)=[min(U2),max(U2)]∩[min(P2),max(P2)]
步驟7:將每個正常、異常時間窗口內字段狀態子序列中的某個特征做為標簽的樣本數據集按照ECC表達式分別與其他正常、異常時間窗口內的樣本集兩兩計算出差異值,計算表達式為:
v5=1-v6 (11)
f(tableγ)=v5*M′tableγ+v6*M″tableγ+bias (12)
tableγ代表著字段狀態子序列中的某個特征做為標簽時所對應的樣本,
tableγ′代表正常時間窗口下字段狀態子序列中的某個特征做為標簽時所對應的樣本,
tableγ″代表異常時間窗口下字段狀態子序列中的某個特征做為標簽時所對應的樣本,
Mtableγ′為字段狀態子序列中的某個特征做為標簽時所對應的樣本與代表正常時間窗口下字段狀態子序列中的某個特征做為標簽時所對應的樣本的之間的均方誤差,
Mtableγ″為字段狀態子序列中的某個特征做為標簽時所對應的樣本與代表異常時間窗口下字段狀態子序列中的某個特征做為標簽時所對應的樣本的之間的均方誤差,
bias為偏執,
v5、v6分別為正常時間窗口、異常時間窗口均方誤差的變化系數,訓練時v5=v6,
f(tableγ)為受訓練的時間窗口中字段狀態子序列中的某個特征做為標簽所計算的差異值;
步驟8:將每個正常時間窗口通過式(9)-(12)與正常、異常時間窗口計算出差異值并保存為集合U3,將異常時間窗口通過式(9)-(12)與正常、異常時間窗口計算出差異值并保存為P3,得到正常時間窗口下日志數量狀態子序列的置信區間σ(γ)為
σ(γ)=[min(U3),max(U3)]∩[min(P3),max(P3)]。
3.如權利要求2所述的多源異構日志分析方法,其特征在于,日志分析的方法包括如下步驟:
步驟1:對一個受檢測的時間窗口進行分析時,隨機挑選每個子序列的一個特征組成三個標簽并形成三個樣本代表受測時間窗口;
步驟2:設初始值v1=v2,v3=v4,v5=v6,通過公式(1)-(12)分別計算出受檢測時間窗口下的三個樣本的差異值f(tableα)、f(tableβ)、f(tableγ)是否在對應的置信區間σ(α)、σ(β)、σ(γ)內;
步驟3:若三個樣本都在置信區間內,則對v1、v2、v3、v4、v5、v6約束,約束公式為
v1=a1*v1(0≤a<1)
v3=a2*v3(0≤a2<1)
v5=a3*v5(0≤a3<1)
v1、v3、v5分別為正常時間窗口的均方誤差的變化系數,將v1、v3、v5縮小,則正常時間窗口對差異值影響減少,異常時間窗口對差異值影響增大,根據新的v1、v2、v3、v4、v5、v6與三個樣本重新通過公式(1)-(12),分別計算出受測時間窗口下的三個樣本的差異值是否在對應的置信區間σ(α)、σ(β)、σ(γ)內,并根據漏報率要求確定重復約束的次數;
步驟4:若重復約束結束后,受測時間窗口下的三個樣本的差異值依然在置信區間內,則認為信息系統在該受測時間窗口正常,否則認為不正常。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連大學,未經大連大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010911771.1/1.html,轉載請聲明來源鉆瓜專利網。





