[發明專利]通用的原始日志清洗裝置及方法在審
| 申請號: | 201611183585.0 | 申請日: | 2016-12-20 |
| 公開(公告)號: | CN106599244A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 張亞軍;田文寶;夏鵬 | 申請(專利權)人: | 飛狐信息技術(天津)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 天津創智天誠知識產權代理事務所(普通合伙)12214 | 代理人: | 周慶路,田陽 |
| 地址: | 300000 天津市濱海新區天津經濟開*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用 原始 日志 清洗 裝置 方法 | ||
技術領域
本發明涉及大數據處理技術領域,特別是涉及一種通用的原始日志清洗裝置及方法。
背景技術
在進行日志分析的時候,日志的數據是雜亂無章的,或則說日志的數據并不是都想看到的。所以需要對里面的數據進行清洗,即,過濾里面的字符串,并對其結構化處理。
一些大型的互聯網公司,日志多樣,這樣的日志都需要清洗,有的日志量數據龐大,每天大約占用幾個t的存儲空間,這里面就有2個問題:一是日志形式多,每類日志都要清洗,如果每個日志都專門獨自的去處理,耗費不少時間,第二個問題是日志量大,將會占用很大的空間資源,再讀取這些日志時耗費的網絡io也會很高。
發明內容
本發明的目的是針對現有技術中存在的技術缺陷,而提供一種靈活的裝置來自定義配置來完成不同日志的清洗工作的通用的原始日志清洗方法。
為實現本發明的目的所采用的技術方案是:
一種通用的原始日志清洗裝置,包括,
變量存儲模塊,用于存儲與每類日志對應的元數據,與各元數據對應的正則表達式及匹配的字段;
配置模塊,用于配置多個清洗任務、每個清洗任務對應的清洗前后日志的存儲路徑、存儲格式及壓縮格式,所述的清洗任務與元數據一一對應;
清洗模塊,根據日志類型識別對應的元數據,并根據任務配置采用mapreduce程序完成清洗邏輯并進行預設的存儲。
所述的配置采用zookeeper進行存儲。
一種通用的原始日志清洗方法,包括,
建立與每類日志對應的元數據,與各元數據對應正則表達式及匹配的字段并存儲;
配置多個與元數據一一對應的清洗任務及每個清洗任務對應的存儲路徑、存儲格式及壓縮格式并存儲;
根據日志類型識別對應的元數據,并根據清洗任務配置采用mapreduce程序完成清洗步驟并進行預設的存儲。
所述的配置采用zookeeper進行存儲。
在所述的清洗步驟中mapreduce程序根據輸入數據的大小自動判斷reduce的個數。
待清洗數據存儲在hdfs目錄中。
與現有技術相比,本發明的有益效果是:
本發明通過元數據管理:對應每類日志,都建立一套元數據,把日志與變量存儲及配置合理的管理起來,在管理后臺里可以配置這些信息。而且正則表達式的使用能篩選滿足規則的日志并截取重要參數,最后和變量存儲里的變量建立對應關系。同時采用mapreduce程序,根據原始日志文件的大小,計算所需要的reduce個數,通過變量存儲及配置編寫清洗邏輯最后完成清洗流程。
附圖說明
圖1所示為本發明的通用的原始日志清洗方法的流程示意圖。
具體實施方式
以下結合附圖和具體實施例對本發明作進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
為減小數據文件的體量,目前最流行使用的壓縮是lzo壓縮和snappy壓縮。Hadoop是分布式存儲及分布式計算的大數據平臺架構,借助該平臺,本發明通過mapreduce程序把不規則的日志進行結構化后按自定義的存儲格式及壓縮格式存儲到hdfs中供后期使用。克服了現有技術中根據業務需求同步的日志做不同的日志處理,代碼重復率高的缺陷,減少開發人員的工作量。
本發明的通用的原始日志清洗裝置包括變量存儲模塊、配置模塊和清洗模塊,其中,
變量存儲模塊用于存儲與每類日志對應的元數據,與各元數據對應的正則表達式及匹配的字段;
正則表達式是存儲在變量存儲模塊里的,和變量分開存儲,正則表達式的作用是獲取需要的字段,必須保證正確,舉例:
^([0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3})--//[(.*)//]/"GET/hdpb.gif//?(.*)HTTP.*/"[0-9]{3}[0-9]{1,5}/"(.*)/"$"
小括號里面的代表要抽取的字段,這些字段會分類,比如ip字段,時間字段,參數字段,ua字段。元數據根據待清洗數據的類型和清洗目標設置為多個,具體根據業務上的需求選擇匹配合理的元數據即可。元數據的采用簡化了待清洗數據模型,可實現同類或者近似清洗的快捷配置。
所述的配置模塊用于配置多個清洗任務、每個清洗任務對應的清洗前后日志的存儲路徑、存儲格式及壓縮格式,所述的清洗任務與元數據一一對應;將各種清洗要求直接具體任務化并存儲,每種任務對應的存儲壓縮格式等必要因素,這樣調取匹配的任務即可實現對應的清洗進程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于飛狐信息技術(天津)有限公司,未經飛狐信息技術(天津)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611183585.0/2.html,轉載請聲明來源鉆瓜專利網。





