[發(fā)明專利]一種流式在線日志解析方法有效
| 申請?zhí)枺?/td> | 201810805285.4 | 申請日: | 2018-07-20 |
| 公開(公告)號: | CN109189840B | 公開(公告)日: | 2021-01-19 |
| 發(fā)明(設計)人: | 王晨旭;趙志遠;饒巍;陶敬;馬小博;秦濤 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/18 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 安彥彥 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 在線 日志 解析 方法 | ||
1.一種流式在線日志解析方法,其特征在于:包括如下步驟:
步驟1:對日志文本進行預處理;
步驟2:匹配分區(qū):將日志按照其長度進行分區(qū),即同一長度的日志被分配到同一個分區(qū)中,根據(jù)日志mi的長度來搜索是否存在匹配的分區(qū)P,如果有,則進行步驟3,如果無,則創(chuàng)建一個新的分區(qū)Pi,當前日志處理完畢,進行下一條日志的處理;
步驟3:在分區(qū)Pi中預匹配日志mi的日志類型tki:將日志mi依次與分區(qū)Pi中的日志類型ti求取交集,如果兩者的交集長度滿足閾值ω,則進行步驟4,如果日志mi與分區(qū)Pi中的每一個日志類型都求取交集,并且所有的交集長度都不滿足閾值ω,則日志mi被認為是Pi中的一種新的日志類型,直接將日志mi加入分區(qū)Pi中,當前日志處理完畢,進行下一條日志的處理;
步驟4:提取日志mi的日志類型與參數(shù):求取日志mi與日志類型tki的最長公共子序列,則最長公共子序列為日志mi的常量部分,日志mi中剩余部分為變量部分;之后跳轉步驟1,順序執(zhí)行直至所有日志處理完畢,執(zhí)行步驟5;
步驟5:合并所有分區(qū)中的日志類型:一共有n個分區(qū)P1-Pn,依次遍歷,將所有分區(qū)中的日志類型與日志類型集中的日志類型進行比較與添加之后,日志類型集包含了此日志文件所有的日志類型。
2.根據(jù)權利要求1所述的一種流式在線日志解析方法,其特征在于:步驟1的具體過程為:去掉日志文本中為變量部分的列,其中,常量部分與變量部分的定義如下:日志中能夠作為日志類型的部分被稱為常量部分,不能夠作為日志類型的部分作為參數(shù),稱為變量部分。
3.根據(jù)權利要求1所述的一種流式在線日志解析方法,其特征在于:步驟3中,閾值ω的定義如下:
其中,
max(|m|)是一個日志數(shù)據(jù)集中最長的日志的長度。
4.根據(jù)權利要求3所述的一種流式在線日志解析方法,其特征在于:當x=2.64時,tanh(x)≈1,因為日志的長度都大于2.64,所以將tanh(x)進行橫向拉伸,以達到根據(jù)日志的長度來進行非線性變換閾值ω的目的;最后,tanh(x)的最大值被設置為
5.根據(jù)權利要求1所述的一種流式在線日志解析方法,其特征在于:步驟5的具體過程為:每次從分區(qū)Pi中取出一個日志類型tki,然后用日志類型tki與日志類型集中的日志類型依次求交集;然后判斷求出的交集是否等于當前求交集的兩個日志類型之中較短的一個,如果是,則說明這兩個日志類型屬于同一個類型,合并為一個;如果遍歷完日志類型集中已有的所有日志類型,沒有與日志類型tki屬于同一類型的日志類型,那么日志類型tki作為一個新的日志類型加入到日志類型集中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經(jīng)西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810805285.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





