[發(fā)明專利]一種流式在線日志解析方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810805285.4 | 申請(qǐng)日: | 2018-07-20 |
| 公開(公告)號(hào): | CN109189840B | 公開(公告)日: | 2021-01-19 |
| 發(fā)明(設(shè)計(jì))人: | 王晨旭;趙志遠(yuǎn);饒巍;陶敬;馬小博;秦濤 | 申請(qǐng)(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號(hào): | G06F16/25 | 分類號(hào): | G06F16/25;G06F16/18 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 61200 | 代理人: | 安彥彥 |
| 地址: | 710049 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 在線 日志 解析 方法 | ||
本發(fā)明公開了一種流式在線日志解析方法,該方法利用分區(qū)的思想將日志按照其長(zhǎng)度進(jìn)行分區(qū),即同一長(zhǎng)度的日志被分配到同一個(gè)分區(qū)中;日志分區(qū)后,快速匹配階段通過(guò)求取日志與日志類型的交集是否滿足一個(gè)閾值,來(lái)判斷日志是否屬于當(dāng)前的日志類型;快速匹配到日志所屬的日志類型后,日志類型提取階段通過(guò)求取日志與日志類型的最長(zhǎng)公共子序列來(lái)提取出日志類型與日志的參數(shù)。本發(fā)明可有效解析系統(tǒng)日志,將日志由非結(jié)構(gòu)化的文本解析為結(jié)構(gòu)化的日志類型,結(jié)果可用于日志的異常檢測(cè),方法簡(jiǎn)單有效。
技術(shù)領(lǐng)域
本發(fā)明屬于系統(tǒng)日志安全監(jiān)測(cè)領(lǐng)域,涉及一種流式在線日志解析方法。
背景技術(shù)
系統(tǒng)日志由非結(jié)構(gòu)化文本到結(jié)構(gòu)化日志類型的解析,在系統(tǒng)日志安全監(jiān)測(cè)、網(wǎng)絡(luò)異常檢測(cè)等領(lǐng)域具有重要的應(yīng)用,根據(jù)日志解析的結(jié)果,可以明確了解系統(tǒng)中程序的運(yùn)行順序,進(jìn)一步可以用于系統(tǒng)中程序工作流的構(gòu)建與異常的檢測(cè);經(jīng)典的日志解析方法可以較有效地解析日志,目前已有的方法可分為兩類:離線方法與在線方法:離線即首先需要收集一段時(shí)間內(nèi)產(chǎn)生的日志,一次性對(duì)這些日志進(jìn)行解析,如果有新產(chǎn)生的日志需要解析,那么就需要重新訓(xùn)練;在線方法可不需要一次性載入所有需要解析的日志,而是一條一條地對(duì)日志以流式的方式進(jìn)行處理。
Tang方法(參考Tang的方法:L.Tang,T.Li,and C.-S.Perng,“Logsig:Generatingsystem events from raw textual logs,”in Proceedings of the 20th ACMinternational conference on Information and knowledge management.ACM,2011,pp.785-794.)提出了一種離線解析日志的方法,該方法首先利用聚集技術(shù)根據(jù)日志的距離分為不同的組,然后日志類型從這些不同的組中產(chǎn)生。此方法需要日志類型的個(gè)數(shù)作為輸入來(lái)進(jìn)行日志解析,然而使用者大多很難知道日志文件中含有的日志類型的個(gè)數(shù)。Makanju方法(參考Makanju的方法:A.A.Makanju,A.N.Zincir-Heywood,and E.E.Milios,“Clustering event logs using iterative partitioning,”in Proceedings of the15th ACM SIGKDD international conference on Knowledge discovery and datamining.ACM,2009,pp.1255-1264.)也提出了一種離線日志解析方法,該方法首先會(huì)計(jì)算日志中每一個(gè)位置出現(xiàn)的詞的頻率,然后日志類型中的詞語(yǔ)候選詞將從最頻繁出現(xiàn)的詞中選出。以上兩種都是離線的日志解析方法,它們都需要將所有的日志一次性載入內(nèi)存,隨著系統(tǒng)日志規(guī)模的不斷增長(zhǎng),它們會(huì)受到單臺(tái)計(jì)算機(jī)內(nèi)存的限制。
Du方法(參考Du的方法:M.Du and F.Li,“Spell:Streaming parsing of systemevent logs,”in Data Mining(ICDM),2016IEEE 16th International Conferenceon.IEEE,2016,pp.859-864.)提出了一種流式的日志解析方法,該方法利用最長(zhǎng)公共子序列來(lái)求取日志類型。然而在此方法中,每次處理一條日志時(shí),需要將此日志與所有現(xiàn)有的日志類型進(jìn)行一一求取最長(zhǎng)公共子序列(時(shí)間復(fù)雜度為O(n2)),隨著解析工作的進(jìn)行,日志類型會(huì)不斷增加,所以該算法十分耗時(shí)。He方法(參考He的方法:P.He,J.Zhu,Z.Zheng,andM.R.Lyu,“Drain:An online log parsing approach with fixed depth tree,”in WebServices(ICWS),2017IEEE International Conference on.IEEE,2017,pp.33-40.)提出了一種基于固定深度樹的在線日志解析方法,該方法通過(guò)日志的首個(gè)詞的不同將其分配至不同節(jié)點(diǎn),然后每次有新的日志,直接進(jìn)行匹配。然而此方法在準(zhǔn)確率上還需要有很大提升,而且樹的深度作為一個(gè)參數(shù)往往使用者很難確定如何設(shè)置。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810805285.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于呈現(xiàn)在線實(shí)體在線狀態(tài)的系統(tǒng)和方法
- 提供web服務(wù)接入的在線系統(tǒng)和方法
- 定制在線圖標(biāo)
- 一種水質(zhì)在線檢測(cè)預(yù)處理裝置
- 在線測(cè)試學(xué)習(xí)方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種在線文檔的分頁(yè)方法、裝置、設(shè)備以及可讀介質(zhì)
- 一種基于web在線學(xué)習(xí)的資源訪問平臺(tái)
- 一種在線學(xué)習(xí)系統(tǒng)
- 在線文檔提交方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 空調(diào)冷媒量確定方法、系統(tǒng)和可讀存儲(chǔ)介質(zhì)
- 一種基于精簡(jiǎn)策略的集群系統(tǒng)的日志管理優(yōu)化方法
- 日志分離方法及裝置
- 日志服務(wù)器處理日志的方法和裝置
- 一種基于負(fù)載均衡的文件系統(tǒng)日志模型
- 日志生成方法、應(yīng)用服務(wù)器、日志服務(wù)器及日志生成系統(tǒng)
- 一種多線程日志輸出的方法及裝置
- 一種日志分析方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志解析方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志處理方法及設(shè)備
- 一種日志檢測(cè)方法、裝置、終端及服務(wù)器
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





