[發明專利]一種ETL解析異常數據留存的方法及裝置在審
| 申請號: | 202011266712.X | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112269825A | 公開(公告)日: | 2021-01-26 |
| 發明(設計)人: | 張強 | 申請(專利權)人: | 中盈優創資訊科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/2455;G06F16/248;G06F16/21 |
| 代理公司: | 上海嘉藍專利代理事務所(普通合伙) 31407 | 代理人: | 金波 |
| 地址: | 200000 上海市嘉定區安*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 etl 解析 異常 數據 留存 方法 裝置 | ||
1.一種ETL解析異常數據留存的方法,其特征在于,該方法包括:
步驟一,采集數據
開啟filebeat程序,啟動一個或多個探測器檢測指定的日志目錄或文件,對于探測器找出的每一個日志目錄或文件,filebeat程序啟動收割進程,每一個收割進程讀取一個日志目錄或文件的新內容,并發送這些新內容,匯總到logstash程序;
步驟二,處理數據
logstash程序收到filebeat程序發來的數據后,對數據執行轉換和過濾的各種操作;
在處理數據時,通過不同的插件解析規則,并帶上當前處理時間,記錄元數據和異常日志數據的對應關系;
logstash程序記錄異常日志對應元數據所在主機名、文件名和文件所在目錄名信息,并將這些信息追加到異常數據中;
步驟三,將異常數據寫入定義的目標存儲。
2.根據權利要求1所述的ETL解析異常數據留存的方法,其特征在于,不同的插件解析規則,包括:
使用ruby插件自定義解析規則,json異常解析規則,grok異常解析規則以及其他異常解析規則。
3.根據權利要求2所述的ETL解析異常數據留存的方法,其特征在于,使用ruby插件自定義解析規則,包括:
通過logstash的ruby插件解析數據,校驗字段的數據類型、字段數量、時間格式是否符合規則,如果不符合規則,則拋出異常,并將日志是否正常的標識設置為2,標識該條日志為異常數據。
4.根據權利要求2所述的ETL解析異常數據留存的方法,其特征在于,json異常解析規則,包括:
通過logstash的json插件解析json格式的數據,對于無法解析的json字符串,拋出_jsonparsefailure異常,并將日志是否正常的標識設置為2,標識該條日志為異常數據。
5.根據權利要求2所述的ETL解析異常數據留存的方法,其特征在于,grok異常解析規則,包括:
通過logstash的grok插件基于正則表達式解析數據,對于無法解析的grok字符串,拋出_grokparsefailure異常,并將日志是否正常的標識設置為2,標識該條日志為異常數據。
6.根據權利要求2所述的ETL解析異常數據留存的方法,其特征在于,其他異常解析規則,包括:
對于mutate_error無法解析,拋出_mutate_error異常,對于dissect無法解析,拋出_dissectfailure異常,對于時間戳無法解析,拋出_timestampparsefailure異常,并將日志是否正常的標識設置為2,標識該條日志為異常數據。
7.根據權利要求1所述的ETL解析異常數據留存的方法,其特征在于,所述元數據使用ruby腳本解析。
8.一種ETL解析異常數據留存的裝置,其特征在于,該裝置包括:
采集數據模塊,用于開啟filebeat程序,啟動一個或多個探測器檢測指定的日志目錄或文件,對于探測器找出的每一個日志目錄或文件,filebeat程序啟動收割進程,每一個收割進程讀取一個日志目錄或文件的新內容,并發送這些新內容,匯總到logstash程序;
處理數據模塊,用于logstash程序收到filebeat程序發來的數據后,對數據執行轉換和過濾的各種操作;在處理數據時,通過不同的插件解析規則,并帶上當前處理時間,記錄元數據和異常日志數據的對應關系;logstash程序記錄異常日志對應元數據所在主機名、文件名和文件所在目錄名信息,并將這些信息追加到異常數據中;
異常數據寫入存儲模塊,用于將異常數據寫入定義的目標存儲。
9.根據權利要求8所述的ETL解析異常數據留存的裝置,其特征在于,所述處理數據模塊中不同的插件解析規則,包括:
使用ruby插件自定義解析規則,json異常解析規則,grok異常解析規則以及其他異常解析規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中盈優創資訊科技有限公司,未經中盈優創資訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011266712.X/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





