[發明專利]流式計算系統及流式計算系統的日志數據處理方法在審
| 申請號: | 201910533906.2 | 申請日: | 2019-06-19 |
| 公開(公告)號: | CN110245120A | 公開(公告)日: | 2019-09-17 |
| 發明(設計)人: | 邢越;趙得潤;詹洋;汪婷 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/17 | 分類號: | G06F16/17;G06F16/18 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 日志數據 日志 計算系統 流式 進度監控 消息系統 日志采集模塊 日志處理模塊 狀態監控模塊 關聯 上報 標識關聯 監控日志 日志處理 數據處理 消息隊列 自動推進 解析 存儲 水位 采集 發送 全局 申請 | ||
本申請實施例公開了流式計算系統及其日志處理方法。流式計算系統包括:日志采集模塊,采集日志產出端產出的日志數據并發送至消息系統;消息系統,將日志數據存儲在消息隊列中;狀態監控模塊,監控日志產出端的狀態并上報至進度監控模塊;日志處理模塊,從消息系統獲取日志數據并解析出產出日志數據的日志產出端的標識及與日志產出端的標識關聯的日志數據產出時間,將日志產出端的標識和關聯的日志數據產出時間上報至進度監控模塊;進度監控模塊,根據日志產出端的標識和關聯的日志數據產出時間、以及日志產出端的狀態,確定流式計算系統中未被處理的日志數據的最早產出時間。該流式計算系統實現了全局水位的自動推進。
技術領域
本申請實施例涉及計算機技術領域,具體涉及數據處理技術領域,尤其涉及流式計算系統及其日志數據處理方法。
背景技術
在流式計算的場景中,水位用來標志系統中未完成的數據的最早的時間戳。水位落盤是指按照窗口大小(例如5分鐘)把來自流式傳輸系統中的數據落盤到該窗口對應的文件夾中,并在窗口結束后,標記該窗口結束,文件中的數據完備。在窗口結束后,下游消費者可以對窗口內的數據進行進一步的處理。
然而,由于系統環境較為復雜,一些日志產出端的狀態可能出現異常,網絡也可能發生抖動,使得日志數據無法準確地落盤至相應的窗口中,由此導致系統的全局水位難以準確測定,水位難以推進。
發明內容
本申請實施例提出了流式計算系統及其日志數據處理方法、電子設備和計算機可讀介質。
第一方面,本公開的實施例提供了一種流式計算系統,包括:日志采集模塊,被配置為采集日志產出端產出的日志數據,將日志數據發送至消息系統;消息系統,被配置為將日志采集模塊傳輸的日志數據存儲在消息隊列中;狀態監控模塊,被配置為監控日志產出端的狀態,將日志產出端的狀態上報至進度監控模塊;日志處理模塊,被配置為從消息系統獲取日志數據并解析出產出日志數據的日志產出端的標識及與日志產出端的標識關聯的日志數據產出時間,將日志產出端的標識和關聯的日志數據產出時間上報至進度監控模塊;進度監控模塊,被配置為根據日志處理模塊上報的日志產出端的標識和關聯的日志數據產出時間、以及監控模塊上報的日志產出端的狀態,確定流式計算系統中未被處理的日志數據的最早產出時間。
可選地,上述進度監控模塊被配置為根據狀態監控模塊上報的日志產出端的狀態,確定出連續預設個預定時間周期內狀態異常的日志產出端為異常日志產出端,將除異常日志產出端外的其他日志產出端確定為正常日志產出端,基于流式計算系統中各正常日志產出端的標識及各正常日志產出端的標識關聯的日志數據產出時間,確定流式計算系統中未被處理的日志數據的最早產出時間。
可選地,上述進度監控模塊被配置為:響應于根據狀態監控模塊上報的日志產出端的狀態確定異常日志產出端的狀態恢復正常,基于各正常日志產出端的日志數據產出時間更新流式計算系統中未被處理的日志數據的最早產出時間。
可選地,上述狀態監控模塊被配置為基于日志產出端的日志上報時間確定日志產出端的狀態是否異常。
可選地,上述進度監控模塊還被配置為向流式計算系統的下游數據處理系統通知流式計算系統中未被處理的日志數據的最早產出時間,以供流式計算系統的下游數據處理系統對流式計算系統中未被處理的日志數據的最早產出時間之前的日志數據進行處理。
第二方面,本公開的實施例提供了一種流式計算系統的日志數據處理方法,包括:監控流式計算系統中的日志產出端的狀態;從消息系統獲取日志數據并解析出產出日志數據的日志產出端的標識及與日志產出端的標識關聯的日志數據產出時間,其中,消息系統將日志產出端的日志數據存儲在消息隊列中;根據產出日志數據的日志產出端的標識和關聯的日志數據產出時間、以及日志產出端的狀態,確定流式計算系統中未被處理的日志數據的最早產出時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910533906.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文件整理方法及存儲系統
- 下一篇:文件管理方法、系統以及電子設備





