日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]通用的原始日志清洗裝置及方法在審

專利信息
申請號: 201611183585.0 申請日: 2016-12-20
公開(公告)號: CN106599244A 公開(公告)日: 2017-04-26
發明(設計)人: 張亞軍;田文寶;夏鵬 申請(專利權)人: 飛狐信息技術(天津)有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 天津創智天誠知識產權代理事務所(普通合伙)12214 代理人: 周慶路,田陽
地址: 300000 天津市濱海新區天津經濟開*** 國省代碼: 天津;12
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 通用 原始 日志 清洗 裝置 方法
【說明書】:

技術領域

發明涉及大數據處理技術領域,特別是涉及一種通用的原始日志清洗裝置及方法。

背景技術

在進行日志分析的時候,日志的數據是雜亂無章的,或則說日志的數據并不是都想看到的。所以需要對里面的數據進行清洗,即,過濾里面的字符串,并對其結構化處理。

一些大型的互聯網公司,日志多樣,這樣的日志都需要清洗,有的日志量數據龐大,每天大約占用幾個t的存儲空間,這里面就有2個問題:一是日志形式多,每類日志都要清洗,如果每個日志都專門獨自的去處理,耗費不少時間,第二個問題是日志量大,將會占用很大的空間資源,再讀取這些日志時耗費的網絡io也會很高。

發明內容

本發明的目的是針對現有技術中存在的技術缺陷,而提供一種靈活的裝置來自定義配置來完成不同日志的清洗工作的通用的原始日志清洗方法。

為實現本發明的目的所采用的技術方案是:

一種通用的原始日志清洗裝置,包括,

變量存儲模塊,用于存儲與每類日志對應的元數據,與各元數據對應的正則表達式及匹配的字段;

配置模塊,用于配置多個清洗任務、每個清洗任務對應的清洗前后日志的存儲路徑、存儲格式及壓縮格式,所述的清洗任務與元數據一一對應;

清洗模塊,根據日志類型識別對應的元數據,并根據任務配置采用mapreduce程序完成清洗邏輯并進行預設的存儲。

所述的配置采用zookeeper進行存儲。

一種通用的原始日志清洗方法,包括,

建立與每類日志對應的元數據,與各元數據對應正則表達式及匹配的字段并存儲;

配置多個與元數據一一對應的清洗任務及每個清洗任務對應的存儲路徑、存儲格式及壓縮格式并存儲;

根據日志類型識別對應的元數據,并根據清洗任務配置采用mapreduce程序完成清洗步驟并進行預設的存儲。

所述的配置采用zookeeper進行存儲。

在所述的清洗步驟中mapreduce程序根據輸入數據的大小自動判斷reduce的個數。

待清洗數據存儲在hdfs目錄中。

與現有技術相比,本發明的有益效果是:

本發明通過元數據管理:對應每類日志,都建立一套元數據,把日志與變量存儲及配置合理的管理起來,在管理后臺里可以配置這些信息。而且正則表達式的使用能篩選滿足規則的日志并截取重要參數,最后和變量存儲里的變量建立對應關系。同時采用mapreduce程序,根據原始日志文件的大小,計算所需要的reduce個數,通過變量存儲及配置編寫清洗邏輯最后完成清洗流程。

附圖說明

圖1所示為本發明的通用的原始日志清洗方法的流程示意圖。

具體實施方式

以下結合附圖和具體實施例對本發明作進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。

為減小數據文件的體量,目前最流行使用的壓縮是lzo壓縮和snappy壓縮。Hadoop是分布式存儲及分布式計算的大數據平臺架構,借助該平臺,本發明通過mapreduce程序把不規則的日志進行結構化后按自定義的存儲格式及壓縮格式存儲到hdfs中供后期使用。克服了現有技術中根據業務需求同步的日志做不同的日志處理,代碼重復率高的缺陷,減少開發人員的工作量。

本發明的通用的原始日志清洗裝置包括變量存儲模塊、配置模塊和清洗模塊,其中,

變量存儲模塊用于存儲與每類日志對應的元數據,與各元數據對應的正則表達式及匹配的字段;

正則表達式是存儲在變量存儲模塊里的,和變量分開存儲,正則表達式的作用是獲取需要的字段,必須保證正確,舉例:

^([0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3})--//[(.*)//]/"GET/hdpb.gif//?(.*)HTTP.*/"[0-9]{3}[0-9]{1,5}/"(.*)/"$"

小括號里面的代表要抽取的字段,這些字段會分類,比如ip字段,時間字段,參數字段,ua字段。元數據根據待清洗數據的類型和清洗目標設置為多個,具體根據業務上的需求選擇匹配合理的元數據即可。元數據的采用簡化了待清洗數據模型,可實現同類或者近似清洗的快捷配置。

所述的配置模塊用于配置多個清洗任務、每個清洗任務對應的清洗前后日志的存儲路徑、存儲格式及壓縮格式,所述的清洗任務與元數據一一對應;將各種清洗要求直接具體任務化并存儲,每種任務對應的存儲壓縮格式等必要因素,這樣調取匹配的任務即可實現對應的清洗進程。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于飛狐信息技術(天津)有限公司,未經飛狐信息技術(天津)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611183585.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产91综合一区在线观看| 久久99精品国产一区二区三区| 午夜色大片| 国产精品一二二区| 福利片一区二区三区| 在线观看v国产乱人精品一区二区| 欧美日韩激情一区| 亚洲精品性| 中文字幕欧美日韩一区 | 国产91白嫩清纯初高中在线| 狠狠色噜噜狠狠狠狠黑人| 中文在线一区二区三区| 亚洲国产精品综合| 国产精品一二三四五区| 狠狠插狠狠爱| 亚洲乱亚洲乱妇28p| 亚洲精品老司机| 日本二区在线观看| 亚洲精品www久久久| 欧美日韩精品在线一区| 国产日韩欧美不卡| 91婷婷精品国产综合久久| 久久精品国语| 国产精品黑色丝袜的老师| 浪潮av网站| 午夜看片网站| 免费欧美一级视频| 国产精品久久久久久久久久久久冷| 亚洲欧美日韩一级| 日韩av免费电影| 国产99久久久精品视频| 黑人巨大精品欧美黑寡妇| 热re99久久精品国99热蜜月| 国产理论一区二区三区| 亚洲视频h| 久久网站精品| 国产精品一区二区中文字幕| 91精品国产高清一二三四区| 精品国产区| 热re99久久精品国99热蜜月| 国产精选一区二区| 国产1区2| 亚洲精品456在线播放| 免费毛片a| 国产美女三级无套内谢| 日韩一级片免费视频| 欧美精品一区二区久久久| 亚洲精品国产setv| 99精品一区| 国产午夜一级一片免费播放| 国产精品一卡二卡在线观看| 激情欧美一区二区三区| 国产不卡网站| 亚洲午夜精品一区二区三区电影院| 久久久久久久国产精品视频| 少妇自拍一区| 国产特级淫片免费看| 精品999久久久| 久精品国产| 99久久国产综合精品色伊| 国产91电影在线观看| 国产88久久久国产精品免费二区| 欧美精品亚洲一区| 欧美日本三级少妇三级久久| 国产日韩欧美一区二区在线观看| 亚洲一区2区三区| 日本一区二区三区免费视频| 91麻豆精品国产91久久久更新资源速度超快| 亚洲第一天堂久久| 国产一级自拍片| 午夜伦全在线观看| 亚洲国产欧洲综合997久久,| ass美女的沟沟pics| 国产精品香蕉在线的人| 欧美日韩一区二区三区在线播放| 日本二区在线观看| 韩国女主播一区二区| 91精品久久久久久| 亚洲欧美日韩国产综合精品二区| 一区二区91| 国产精选一区二区| 久久精品国产精品亚洲红杏|