[發(fā)明專利]一種ETL解析異常數(shù)據(jù)留存的方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011266712.X | 申請(qǐng)日: | 2020-11-13 |
| 公開(公告)號(hào): | CN112269825A | 公開(公告)日: | 2021-01-26 |
| 發(fā)明(設(shè)計(jì))人: | 張強(qiáng) | 申請(qǐng)(專利權(quán))人: | 中盈優(yōu)創(chuàng)資訊科技有限公司 |
| 主分類號(hào): | G06F16/25 | 分類號(hào): | G06F16/25;G06F16/2455;G06F16/248;G06F16/21 |
| 代理公司: | 上海嘉藍(lán)專利代理事務(wù)所(普通合伙) 31407 | 代理人: | 金波 |
| 地址: | 200000 上海市嘉定區(qū)安*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 etl 解析 異常 數(shù)據(jù) 留存 方法 裝置 | ||
本發(fā)明公開一種ETL解析異常數(shù)據(jù)留存的方法及裝置,其中,該方法包括:步驟一,采集數(shù)據(jù);步驟二,處理數(shù)據(jù):logstash程序收到filebeat程序發(fā)來的數(shù)據(jù)后,對(duì)數(shù)據(jù)執(zhí)行轉(zhuǎn)換和過濾的各種操作;在處理數(shù)據(jù)時(shí),通過不同的插件解析規(guī)則,并帶上當(dāng)前處理時(shí)間,記錄元數(shù)據(jù)和異常日志數(shù)據(jù)的對(duì)應(yīng)關(guān)系;logstash程序記錄異常日志對(duì)應(yīng)元數(shù)據(jù)所在主機(jī)名、文件名和文件所在目錄名信息,并將這些信息追加到異常數(shù)據(jù)中;步驟三,將異常數(shù)據(jù)寫入定義的目標(biāo)存儲(chǔ)。該方法及裝置自動(dòng)留存數(shù)據(jù)類型、格式、解析錯(cuò)誤等異常日志,并快速定位異常問題原因、歸屬主機(jī)名、文件名等源頭信息。
技術(shù)領(lǐng)域
本發(fā)明涉及異常數(shù)據(jù)留存領(lǐng)域,尤其是一種ETL解析異常數(shù)據(jù)留存的方法及裝置。
背景技術(shù)
圖1是目前異常數(shù)據(jù)留存常規(guī)操作流程示意圖。如圖1所示,該流程如下:
1、filebeat采集數(shù)據(jù)
開啟filebeat程序,啟動(dòng)一個(gè)或多個(gè)探測(cè)器檢測(cè)指定的日志目錄或文件,對(duì)于探測(cè)器找出的每一個(gè)日志文件,filebeat啟動(dòng)收割進(jìn)程,每一個(gè)收割進(jìn)程讀取一個(gè)日志文件的新內(nèi)容,并發(fā)送這些新的日志數(shù)據(jù),匯聚至logstash進(jìn)行各種數(shù)據(jù)轉(zhuǎn)換加工處理。
2、logstash處理數(shù)據(jù)
通過數(shù)據(jù)輸入端從各種數(shù)據(jù)源收集到的數(shù)據(jù)可能有很多不是我們想要的,需要logstash做各種轉(zhuǎn)換、過濾,常見的過濾有json數(shù)據(jù)解析、csv解析、grok正則表達(dá)式匹配、根據(jù)指定分隔符提取字段、日期轉(zhuǎn)換等。
3、異常日志處理
在logstash轉(zhuǎn)換過濾數(shù)據(jù)過程中,由于各種原因解析失敗的數(shù)據(jù),通常有如下兩種操作:
(1)沒有做失敗校驗(yàn),導(dǎo)致結(jié)果數(shù)據(jù)不正常,可能再增加后續(xù)程序?qū)Y(jié)果數(shù)據(jù)再做一層處理,把異常數(shù)據(jù)剔除掉;
(2)直接丟棄;
(3)增加正常或異常的標(biāo)識(shí)字段,寫入目標(biāo)存儲(chǔ),即正常和異常的日志混合在一起,通過一個(gè)標(biāo)識(shí)字段進(jìn)行識(shí)別正常和異常的日志,再后續(xù)通過程序分離正常和異常的日志,將異常日志集中存放在專用的目標(biāo)庫或本地。
上述操作流程存在的問題如下:
(1)沒有做失敗校驗(yàn),導(dǎo)致結(jié)果數(shù)據(jù)不正常,可能再增加后續(xù)程序?qū)Y(jié)果數(shù)據(jù)再做一層處理,雖然可以達(dá)到剔除異常數(shù)據(jù)目標(biāo),但效率較低,無法定位日志異常的原因,無法優(yōu)化源頭的日志生成邏輯;
(2)直接丟棄日志,將導(dǎo)致數(shù)據(jù)缺失,無法定位日志異常的原因,無法優(yōu)化源頭的日志生成邏輯;
(3)通過字段標(biāo)識(shí)正常和異常日志的問題如下:
A、異常日志集中存放在目標(biāo)庫或本地,即使按時(shí)間維度分別存儲(chǔ)在不同目錄下,對(duì)于海量數(shù)據(jù)源如WEB網(wǎng)站訪問日志、流量流向日志等,每天產(chǎn)生的異常日志數(shù)據(jù)量可能較大,給開發(fā)或運(yùn)維排錯(cuò),查找問題原因帶來很大困難。
B、異常日志數(shù)據(jù)只是做簡(jiǎn)單留存,沒有有效做前后關(guān)聯(lián),如異常日志數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)源原始數(shù)據(jù)不清楚,異常日志數(shù)據(jù)的異常類型、來源主機(jī)、來源的文件等信息都缺失。
發(fā)明內(nèi)容
為解決目前異常數(shù)據(jù)留存常規(guī)操作流程存在的問題,本發(fā)明提供一種ETL解析異常數(shù)據(jù)留存的方法及裝置,可以自動(dòng)留存數(shù)據(jù)類型、格式、解析錯(cuò)誤等異常日志,并快速定位異常問題原因、歸屬主機(jī)、文件名等源頭信息。
為實(shí)現(xiàn)上述目的,本發(fā)明采用下述技術(shù)方案:
在本發(fā)明一實(shí)施例中,提出了一種ETL解析異常數(shù)據(jù)留存的方法,該方法包括:
步驟一,采集數(shù)據(jù)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中盈優(yōu)創(chuàng)資訊科技有限公司,未經(jīng)中盈優(yōu)創(chuàng)資訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011266712.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)抽取、轉(zhuǎn)換和加載的執(zhí)行方法和裝置
- 為ETL任務(wù)分配節(jié)點(diǎn)的方法和調(diào)度系統(tǒng)
- 一種用于調(diào)度ETL任務(wù)的方法與設(shè)備
- 一種基于元數(shù)據(jù)的ETL實(shí)現(xiàn)方法及系統(tǒng)
- 一種監(jiān)控任務(wù)運(yùn)行的方法和設(shè)備
- 一種分布式數(shù)據(jù)ETL處理方法及裝置
- 一種基于多服務(wù)節(jié)點(diǎn)的數(shù)據(jù)處理系統(tǒng)及其方法
- ETL任務(wù)調(diào)度方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于元數(shù)據(jù)的ETL任務(wù)批量生成方法
- ETL文件拆分方法及裝置
- 異常檢測(cè)裝置、異常檢測(cè)方法
- 異常檢測(cè)方法、異常檢測(cè)裝置及異常檢測(cè)系統(tǒng)
- 異常檢測(cè)裝置、異常檢測(cè)方法以及異常檢測(cè)系統(tǒng)
- 異常檢測(cè)裝置、異常檢測(cè)方法以及異常檢測(cè)系統(tǒng)
- 異常檢測(cè)裝置、異常檢測(cè)方法及異常檢測(cè)系統(tǒng)
- 異常探測(cè)裝置、異常探測(cè)方法以及計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì)
- 異常檢測(cè)裝置、異常檢測(cè)方法及記錄介質(zhì)
- 異常檢測(cè)裝置、異常檢測(cè)系統(tǒng)以及異常檢測(cè)方法
- 異常檢測(cè)系統(tǒng)、異常檢測(cè)裝置和異常檢測(cè)方法
- 異常檢測(cè)方法、異常檢測(cè)裝置及異常檢測(cè)系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





