[發(fā)明專利]一種日志處理方法和裝置在審
| 申請?zhí)枺?/td> | 201310014284.5 | 申請日: | 2013-01-15 |
| 公開(公告)號: | CN103929321A | 公開(公告)日: | 2014-07-16 |
| 發(fā)明(設(shè)計)人: | 程剛;蘆方 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 羅振安 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 日志 處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)通信領(lǐng)域,特別涉及一種日志處理方法和裝置。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)中的日志數(shù)量越來越多,需要構(gòu)建日志數(shù)據(jù)倉庫或數(shù)據(jù)集市,以便將不同格式的日志進(jìn)行集成對外提供統(tǒng)一的模式。然而在構(gòu)建數(shù)據(jù)倉庫或數(shù)據(jù)集市時,并不能將各種不同的日志簡單地堆砌在一起,而是要進(jìn)行萃取和轉(zhuǎn)置。如何對不同格式的日志進(jìn)行萃取和轉(zhuǎn)置,以及如何兼容因時間推移而產(chǎn)生的各種格式的新老數(shù)據(jù),這就需要ETL(Extraction-Transformation-Loading,數(shù)據(jù)提取、轉(zhuǎn)換和加載)處理。其中,ETL,是負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,為數(shù)據(jù)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
目前,針對日志的ETL處理主要有三種方式:第一種方式針對每種日志格式開發(fā)一段代碼程序,采用函數(shù)、動態(tài)庫或工廠模式描述每種日志;第二種方式將正則表達(dá)式配置到配置文件中,從而取出日志中需要的字段;第三種方式是開發(fā)一種簡單的“語言”用“語言”來進(jìn)行日志解析。
在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
第一種ETL處理方式,僅針對某一具體業(yè)務(wù)的日志格式進(jìn)行處理,當(dāng)有新日志或者原來的日志格式發(fā)生改變時,需要對代碼進(jìn)行修改或者重新開發(fā)一套新代碼,致使工作繁瑣,而且時間久了代碼管理也會變得困難,靈活性和可復(fù)用性差;第二種方式使用正則表達(dá)式的方式,不是所有人都熟悉正則,存在寫錯的風(fēng)險;第三種開發(fā)一種語言的方式,工作量較大,且存在學(xué)習(xí)“語言”的門檻,推廣比較難。上述三種方式僅將日志中的字段值解析出來,因而從數(shù)據(jù)中提取信息能力差。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種日志處理方法和裝置。所述技術(shù)方案如下:
一方面,提供了一種日志處理方法,所述方法包括:
獲取預(yù)設(shè)的格式配置文件;所述格式配置文件中包括日志格式配置要求;
判斷接收到的日志是否滿足所述日志格式配置要求;
當(dāng)所述日志滿足所述日志格式配置要求時,根據(jù)所述日志格式配置要求解析所述日志的字段值。
具體地,所述根據(jù)所述日志格式配置要求解析所述日志的字段值之后,還包括:
對解析的所述日志的字段值進(jìn)行過濾,去掉無效的字段值;
根據(jù)所述日志過濾后的字段值查找是否存在相關(guān)日志,并判斷所述日志是否需要與所述相關(guān)日志合并;
如果需要合并,則將所述日志與相關(guān)日志進(jìn)行合并,并將所述日志解析的字段值存儲在所述相關(guān)日志對應(yīng)的目錄下或者轉(zhuǎn)發(fā);
如果不需要合并,則將所述日志解析的字段值進(jìn)行存儲或者轉(zhuǎn)發(fā)。
具體地,所述獲取預(yù)設(shè)的格式配置文件之前,包括:
配置所述格式配置文件,所述格式配置文件中的日志格式配置要求具體包括輸入格式配置要求和輸出格式配置要求。
具體地,所述根據(jù)所述日志格式配置要求解析所述日志的字段值,包括:
當(dāng)接收到的所述日志滿足所述輸入格式配置要求時,判斷所述日志的字段模式為固定序模式還是鍵值對KV模式;
當(dāng)所述日志的字段模式是所述固定序模式時,根據(jù)所述固定序模式規(guī)則解析所述日志的字段值;
當(dāng)所述日志的字段模式是所述KV模式時,根據(jù)所述KV模式規(guī)則解析所述日志的字段值。
進(jìn)一步地,判斷所述日志是否需要與相關(guān)日志合并之后,還包括:
當(dāng)所述日志與相關(guān)日志需要合并時,則將所述日志與相關(guān)日志進(jìn)行合并后,將所述日志解析的字段值根據(jù)所述輸出格式配置要求配置后,存儲在所述相關(guān)日志對應(yīng)的目錄下或者轉(zhuǎn)發(fā);
當(dāng)所述日志與相關(guān)日志不需要合并時,則將所述日志解析的字段值根據(jù)所述輸出格式配置要求配置后,進(jìn)行存儲或者轉(zhuǎn)發(fā)。
另一方面,提供了一種日志處理裝置,所述裝置包括:
獲取模塊,用于獲取預(yù)設(shè)的格式配置文件;所述格式配置文件中包括日志格式配置要求;
判斷模塊,用于判斷接收到的日志是否滿足所述日志格式配置要求;
解析模塊,用于當(dāng)所述日志滿足所述日志格式配置要求時,根據(jù)所述日志格式配置要求解析所述日志的字段值。
具體地,所述裝置還包括:
過濾模塊,用于根據(jù)所述日志格式配置要求解析所述日志的字段值之后,對解析的所述日志的字段值進(jìn)行過濾,去掉無效的字段值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310014284.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





