[發(fā)明專利]日志處理方法、日志處理裝置及電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202111424453.3 | 申請(qǐng)日: | 2021-11-26 |
| 公開(公告)號(hào): | CN114238257A | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計(jì))人: | 張廣艷;魏鈞宇;陳軍超 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué) |
| 主分類號(hào): | G06F16/18 | 分類號(hào): | G06F16/18;G06F16/174;G06F16/14 |
| 代理公司: | 北京路浩知識(shí)產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 毛宏寶 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 日志 處理 方法 裝置 電子設(shè)備 | ||
本發(fā)明提供一種日志處理方法、日志處理裝置及電子設(shè)備,其中,日志處理方法包括:獲取原始日志,并基于日志解析工具將所述原始日志劃分為原始模板和原始變量;基于變量組子模式,對(duì)所述原始變量進(jìn)行特征提取,得到存儲(chǔ)單元;將所述存儲(chǔ)單元進(jìn)行壓縮,得到壓縮后存儲(chǔ)單元,其中,所述壓縮后存儲(chǔ)單元包括存儲(chǔ)單元標(biāo)簽,所述壓縮后存儲(chǔ)單元用于實(shí)現(xiàn)對(duì)所述原始日志的搜索。通過本發(fā)明的日志處理方法可以有效提高日志的壓縮率,并且顯著降低日志交互式檢索時(shí)的延遲。
技術(shù)領(lǐng)域
本發(fā)明涉及日志處理技術(shù)領(lǐng)域,尤其涉及一種日志處理方法、日志處理裝置及電子設(shè)備。
背景技術(shù)
在現(xiàn)代云系統(tǒng)中,每天會(huì)產(chǎn)生大量的日志數(shù)據(jù),這些數(shù)據(jù)可以用于完成錯(cuò)誤診斷、用戶行為建模、系統(tǒng)性能分析、潛在安全風(fēng)險(xiǎn)預(yù)警等功能。隨著系統(tǒng)規(guī)模的擴(kuò)大,相應(yīng)的日志數(shù)據(jù)的規(guī)模也在迅速增長(zhǎng)。在一些情況下,系統(tǒng)日志的規(guī)模甚至達(dá)每日PB量級(jí)。這些日志可以根據(jù)他們的訪問頻度分成離線日志、近線日志和在線日志三類,其中離線日志主要用于歸檔,一旦存入系統(tǒng)將在未來不再可能被檢索。近線日志主要用于查詢,對(duì)于他們一個(gè)月的訪問頻次通常在0-100次之間,在線日志主要用于監(jiān)控系統(tǒng)狀態(tài),對(duì)于他們的訪問較為頻繁,通常一個(gè)月有近千次的訪問。相關(guān)統(tǒng)計(jì)可知,近線日志在日志中的占比量最大。
為了降低存儲(chǔ)成本,一個(gè)常用的思路便是針對(duì)這些日志進(jìn)行壓縮。對(duì)于離線日志,只需要考慮他們的存儲(chǔ)開銷即可,因此可以采用現(xiàn)有的各類高密度日志壓縮方法進(jìn)行處理(例如lzma、Logzip、LogReducer等數(shù)據(jù)壓縮方法)。對(duì)于在線日志,只需要考慮他們的檢索效率即可,因此可以直接將原始日志存儲(chǔ)下來,并使用已有的高效文本檢索工具(例如ElasticSearch,Splunk等)完成檢索。
但是對(duì)于占比最高的近線日志,一方面離線的壓縮方法無法提供高效的檢索功能,另一方面,直接使用在線的檢索工具則無法有效節(jié)省空間,因此,如何更好的實(shí)現(xiàn)日志存儲(chǔ),已經(jīng)成為業(yè)界亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明提供一種日志處理方法、日志處理裝置及電子設(shè)備,用以解決現(xiàn)有技術(shù)中不能有效實(shí)現(xiàn)日志的高密壓縮和快速檢索問題的缺陷,提高了日志壓縮率,同時(shí)降低了日志交互式檢索時(shí)的延遲。
本發(fā)明提供一種日志處理方法,其特征在于,所述方法包括:獲取原始日志,并基于日志解析工具將所述原始日志劃分為原始模板和原始變量;基于變量組子模式,對(duì)所述原始變量進(jìn)行特征提取,得到存儲(chǔ)單元;將所述存儲(chǔ)單元進(jìn)行壓縮,得到壓縮后存儲(chǔ)單元,其中,所述壓縮后存儲(chǔ)單元包括存儲(chǔ)單元標(biāo)簽,所述壓縮后存儲(chǔ)單元用于實(shí)現(xiàn)對(duì)所述原始日志的搜索。
根據(jù)本發(fā)明提供的一種日志處理方法,其特征在于,所述方法還包括:基于搜索關(guān)鍵詞,通過所述存儲(chǔ)單元標(biāo)簽,在多個(gè)所述壓縮后存儲(chǔ)單元中確定與所述搜索關(guān)鍵詞對(duì)應(yīng)的目標(biāo)壓縮后存儲(chǔ)單元;基于定長(zhǎng)檢索策略,在所述目標(biāo)壓縮后存儲(chǔ)單元中確定與所述搜索關(guān)鍵詞對(duì)應(yīng)的目標(biāo)元素;基于所述目標(biāo)元素,重構(gòu)出與所述目標(biāo)元素對(duì)應(yīng)的目標(biāo)日志。
根據(jù)本發(fā)明提供的一種日志處理方法,其特征在于,所述變量組子模式采用以下方式確定:確定所述原始變量位于所述原始日志的位置;將具有相同位置的所述原始變量劃分為原始變量組;基于所述原始變量組,確定所述變量組子模式。
根據(jù)本發(fā)明提供的一種日志處理方法,其特征在于,所述方法還包括:基于所述原始變量組中元素重復(fù)度,將所述原始變量組劃分為字典變量組和非字典變量組;所述基于所述原始變量組,確定所述變量組子模式,包括:基于所述字典變量組,確定第一變量組子模式,其中,所述第一變量組子模式為關(guān)于所述字典變量組的變量組子模式;基于所述非字典變量組,確定第二變量組子模式,其中,所述第二變量組子模式為關(guān)于所述非字典變量組的變量組子模式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111424453.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種基于精簡(jiǎn)策略的集群系統(tǒng)的日志管理優(yōu)化方法
- 日志分離方法及裝置
- 日志服務(wù)器處理日志的方法和裝置
- 一種基于負(fù)載均衡的文件系統(tǒng)日志模型
- 日志生成方法、應(yīng)用服務(wù)器、日志服務(wù)器及日志生成系統(tǒng)
- 一種多線程日志輸出的方法及裝置
- 一種日志分析方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志解析方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志處理方法及設(shè)備
- 一種日志檢測(cè)方法、裝置、終端及服務(wù)器
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





