[發(fā)明專利]一種基于N-gram與頻繁模式挖掘的系統(tǒng)日志解析方法有效
| 申請?zhí)枺?/td> | 202110195563.0 | 申請日: | 2021-02-19 |
| 公開(公告)號(hào): | CN112882997B | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設(shè)計(jì))人: | 應(yīng)時(shí);胡勝康;王冰明 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號(hào): | G06F16/17 | 分類號(hào): | G06F16/17;G06F40/284;G06F16/2458;G06K9/62 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 許蓮英 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 gram 頻繁 模式 挖掘 系統(tǒng) 日志 解析 方法 | ||
1.一種基于N-gram與頻繁模式挖掘的系統(tǒng)日志解析方法,其特征在于,包括以下步驟:
步驟1:將多行日志消息依次根據(jù)空格分解為單個(gè)的單詞;
步驟2:計(jì)算任意兩行日志消息之間的N-gram距離;
步驟3:通過步驟2算出N分別取值1,2,3時(shí),任意兩行日志消息之間的1-gram距離、2-gram距離和3-gram距離,基于所述的1-gram距離、2-gram距離和3-gram距離計(jì)算任意兩行日志消息的相似匹配值,當(dāng)匹配值高于設(shè)定閾值的日志消息歸為一類;
步驟4:設(shè)置頻繁模式挖掘算法的頻繁單詞項(xiàng)集的長度即m、頻繁模式挖掘算法的頻繁單詞項(xiàng)集的支持度即α;
步驟5:對每一類別Ck+n中的所有日志消息使用頻繁模式挖掘算法,挖掘出每一類Ck+n中符合參數(shù)設(shè)定的候選頻繁單詞項(xiàng)集;
步驟3所述計(jì)算任意兩行日志消息的相似匹配值為:
1-Gram(messagei,messagej)是序號(hào)為i的日志消息與序號(hào)為j的日志消息1-gram距離;2-Gram(messagei,messagej)則是序號(hào)為i的日志消息與序號(hào)為j的日志消息2-gram距離;3-Gram(messagei,messagej)是序號(hào)為i的日志消息與序號(hào)為j的日志消息3-gram距離;max(len (messagei),len (messagej))是序號(hào)為i的日志消息與序號(hào)為j的日志消息長度值;
當(dāng)matchS(messagei,messagej)≥0.5時(shí),若messagei已有歸屬類別Ck,則messagej被分類到類別Ck中;若messagei和messagej未被分類,則新增一個(gè)類別Ck+n,將messagei與messagej歸類到新增類別Ck+n中;
當(dāng)matchS(messagei,messagej)<0.5時(shí),messagei,messagej屬于不同類別;若messagei已有歸屬類別Ck,messagej未被分類,則新增一個(gè)類別Ck+n,將messagej歸類到新增類別Ck+n中;
步驟3將一直進(jìn)行下去,直到每一條日志消息都有其歸屬類別Ck+n;
所述類別Ck和Ck+n為:
Ck表示分類過程中分出的第一個(gè)類別;Ck+n表示分類過程中分出的第n個(gè)類別;其中,1≤n≤L,其中L為所有日志消息分類的類別數(shù)量;
步驟5所述候選頻繁項(xiàng)集為
其中,m為步驟1中設(shè)定的頻繁單詞項(xiàng)集長度閾值,1≤d≤m;
是類別Ck+n中的單詞,并且在頻繁模式挖掘算法中支持度大于等于設(shè)定閾值α;
將按挖掘順序進(jìn)行排列組成候選頻繁單詞項(xiàng)集;
每一個(gè)類別Ck+n通過頻繁模式挖掘算法選取的候選頻繁單詞項(xiàng)集即為類別Ck+n的日志消息模板;
步驟1所述日志消息為:
messagei,i∈[1,M]
其中,messagei為序號(hào)為i日志消息,M為日志消息的數(shù)量;
單詞序列為:
messagei={tokeni,1,tokeni,2,...,tokeni,Li}
其中,tokeni,j序號(hào)為i日志消息的單詞序列中第j個(gè)單詞,Li為序號(hào)為i的日志消息的單詞序列中單詞的數(shù)量;
步驟2所述計(jì)算任意兩行日志消息之間的N-gram距離為:
N-Gram(messagei,messagej)=
|GN(messagei)|+|GN(messagej)|-2×GN(messagei)∩GN(messagej)
其中,1≤i≤j≤M,M為日志消息的數(shù)量;N為人為設(shè)定的數(shù)值,設(shè)定的數(shù)值分別為1,2,3;i,j為日志消息序號(hào),N-Gram(messagei,messagej)表示序號(hào)為i的日志消息與序號(hào)為j日志消息之間的N-gram特征距離,messagei表示序號(hào)為i的日志消息,messagej表示序號(hào)為j日志消息;GN(messagei)表示序號(hào)為i的日志消息提取的N-gram特征集;|GN(messagei)|表示GN(messagei)特征集中特征的數(shù)量;GN(messagej)表示序號(hào)為i的日志消息提取的N-gram特征集,|GN(messagej)|表示GN(messagej)特征集中特征的數(shù)量;|GN(messagei)∩GN(messagej)|表示序號(hào)為i的日志消息與序號(hào)為j的N-gram特征集特征相同的數(shù)量;
所述N-gram特征集為:
N為人為設(shè)定的數(shù)值,設(shè)定的數(shù)值分別為1,2,3;N-gram特征表示日志消息的單詞從第一個(gè)單詞開始,連續(xù)N個(gè)單詞組成一個(gè)特征;直到特征中包含最后一個(gè)單詞為止;N-gram特征集表示由日志消息特征組成的集合;
所述GN(messagei)為:
messagei={tokeni,1,tokeni,2,...,tokeni,Li}
當(dāng)N設(shè)置為1時(shí),1-gram特征集為:
{{‘tokeni,1’},{‘tokeni,2’},{‘tokeni,3’},…,{‘tokeni,Li’}}
1-gram特征集中特征的數(shù)量為Li,即|G1(messagei)|=Li;
當(dāng)N設(shè)置為2時(shí),2-gram特征集為:
{{‘tokeni,1’,‘tokeni,2’},{‘tokeni,2’,‘tokeni,3’},…,{‘token i,Li-1’,‘tokeni,Li’}};
2-gram特征集中特征的數(shù)量為Li-1,即|G2(messagei)|=Li-1;
當(dāng)n設(shè)置為3時(shí),3-gram特征集為:
{{‘tokeni,1’,‘tokeni,2’,‘tokeni,3’},{‘tokeni,2’,‘tokeni,3’,‘tokeni,4’},···,{‘tokeni,Li-2’‘tokeni,Li-1’,‘tokeni,Li’}};
3-gram特征集中特征數(shù)量為Li-2,即|G3(messagei)|=Li-2;
所述序號(hào)為i的日志消息與序號(hào)為j的N-gram特征集特征相同的數(shù)量為:
messagei={tokeni,1,tokeni,2,...,tokeni,Li}
messagej={tokenj,1,tokenj,2,...,tokenj,Li}
當(dāng)N=1時(shí),messagei的1-gram特征集為:
{{‘tokeni,1’},{‘tokeni,2’},{‘tokeni,3’},…,{‘token i,Li’}}
messagej的1-gram特征集為
{{‘tokenj,1’},{‘tokenj,2’},{‘tokenj,3’},…,{‘tokenj,Li’}}
比較兩個(gè)1-gram特征集中的特征;記錄相同特征的個(gè)數(shù),記為|G1(messagei)∩G1(messagej)|;
當(dāng)N=2時(shí),messagei的2-gram特征集為:
{{‘tokeni,1’,‘tokeni,2’},{‘tokeni,2’,‘tokeni,3’},…,{‘tokeni,Li-1’,‘tokeni,Li’}}
messagej的2-gram特征集為
{{‘tokenj,1’,‘tokenj,2’},{‘tokenj,2’,‘tokenj,3’},…,{‘tokenj,Li-1’,‘tokenj,Li’}};比較兩個(gè)2-gram特征集中的特征;記錄相同特征的個(gè)數(shù),記為|G2(messagei)∩G2(messagej)|;
當(dāng)N=3時(shí),messagei的3-gram特征集為:
{{‘tokeni,1’,‘tokeni,2’,‘tokeni,3’},{‘tokeni,2’,‘tokeni,3’,‘token i,4’},···,{‘tokeni,Li-2’‘tokeni,Li-1’,‘tokeni,Li’}}
messagej的3-gram特征集為
{‘tokenj,1’,‘tokenj,2’,‘tokenj,3’},{‘tokenj,2’,‘tokenj,3’,‘token j,4’},···,{‘tokenj,Li-2’‘tokenj,Li-1’,‘tokenj,Li’};
比較兩個(gè)3-gram特征集中的特征;記錄相同特征的個(gè)數(shù),記為|G3(messagei)∩G3(messagej)|;
所述序號(hào)為i的日志消息與序號(hào)為j日志消息之間的N-gram特征距離為:
當(dāng)N=1時(shí),
1-Gram(messagei,messagej)
=|G1(messagei)|+|G1(messagej)|-2×G1(messagei)∩G1(messagej)
當(dāng)N=2時(shí),
2-Gram(messagei,messagej)
=|G2(messagei)|+|G2(messagej)|-2×G2(messagei)∩G2(messagej)
當(dāng)N=3時(shí),
3-Gram(messagei,messagej)=|G3(messagei)|+|G3(messagej)|-2×G3(messagei)∩G3(messagej)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110195563.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





