[發明專利]基于流計算的數據處理方法、裝置及電子設備在審
| 申請號: | 202110087785.0 | 申請日: | 2021-01-22 |
| 公開(公告)號: | CN112765115A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 張勇濤;張劍鳴 | 申請(專利權)人: | 聯想(北京)有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/2455;G06F16/2457;G06F16/23 |
| 代理公司: | 北京金信知識產權代理有限公司 11225 | 代理人: | 侯憲志;韓岳松 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算 數據處理 方法 裝置 電子設備 | ||
本申請公開了一種基于流計算的數據處理方法、裝置及電子設備,該方法包括:響應于流計算中至少一個第一算子出現運行錯誤,確定第一算子的輸入數據中未計算完成的第一數據,生成能夠標識第一數據的第一標識;獲取預先保存的流計算的日志文件,基于日志文件初始化第一算子的數據;構建第一算子與相鄰上游算子,以及第一算子與相鄰下游算子之間的數據連接;向相鄰上游算子發送第一標識,使相鄰上游算子至少向第一算子重新發送第一數據,以使第一算子基于第一數據進行計算并更新數據。應用該方法僅需重新初始化出現運行錯誤的第一算子,就能夠實現精確一次級別的數據一致性,能夠顯著降低故障恢復延遲,提高系統穩定性,改善用戶體驗。
技術領域
本申請涉及流計算技術領域,特別涉及一種基于流計算的數據處理方法、裝置及電子設備。
背景技術
作為流式計算任務的最小執行單位,算子失敗是十分常見的,比如設備故障、用戶代碼拋出錯誤或者網絡故障等等都可能造成算子執行失敗。對批處理計算作業來說,通常單個任務失敗的處理方式是重啟并重新調度失敗任務,而不影響其他任務和整體作業的運行,然而這個方式對于流式計算來說并不可用。
流式計算任務的算子執行失敗恢復機制是從檢查點(checkpoint)獲取重放日志(Redolog)和重新回放數據兩步。對于重啟后的新算子,它通過從檢查點讀取重放日志,但不能獨立地重新回放數據,因為重放日志不包含數據的,要重新回放數據只能要求全部上游算子重新計算,因此需追溯到數據源算子。
當前,為了保證流式計算作業“精確一次(exactly once)”級別的一致性,流計算故障恢復的基本方案是重啟流計算中所有的算子,即重置整個執行圖(ExecutionGraph)。對于大流量、高并發的流式計算任務,由于單個算子執行失敗將重新啟動流計算的所有算子,恢復耗時較長,從而導致流計算輸出中斷。這對實時性和穩定性有高要求的線上任務來說,比如欺詐檢測、告警監控,異常檢測等,其嚴重影響用戶體驗和可用性。
發明內容
本申請提供了一種基于流計算的數據處理方法、裝置及電子設備,本申請實施例采用的技術方案如下:
一種基于流計算的數據處理方法,包括:
響應于流計算中至少一個第一算子出現運行錯誤,確定所述第一算子的輸入數據中未計算完成的第一數據,生成能夠標識所述第一數據的第一標識;
獲取預先保存的所述流計算的日志文件,基于所述日志文件初始化所述第一算子的數據;
構建所述第一算子與相鄰上游算子,以及所述第一算子與相鄰下游算子之間的數據連接;
向所述相鄰上游算子發送所述第一標識,使所述相鄰上游算子至少向所述第一算子重新發送所述第一數據,以使所述第一算子基于所述第一數據進行計算并更新數據。
在一些實施例中,所述確定所述第一算子的輸入數據中未計算完成的第一數據,生成用于標識所述第一數據的第一標識,包括:
確定所述第一算子的第一映射關系,其中,所述第一映射關系包括所述第一算子分別與所述相鄰上游算子和所述相鄰下游算子的第一關聯關系,和/或所述第一算子的輸入數據和輸出數據的第二關聯關系;
確定所述第一算子在第一時段的輸入數據和輸出數據;其中,所述第一時段包括保存所述日志文件至所述第一算子出現運行錯誤之間的時段;
基于所述第一映射關系和所述第一算子在所述第一時段的輸出數據,確定所述第一算子在所述第一時段的輸入數據中未計算完成的所述第一數據,以及已計算完成的第二數據;
生成用于標識所述第一數據的所述第一標識,或生成通過標識所述第二數據以對所述第一數據進行標識的所述第一標識。
在一些實施例中,所述確定所述第一算子在第一時段的輸入數據和輸出數據,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聯想(北京)有限公司,未經聯想(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110087785.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子設備及其控制方法
- 下一篇:液晶顯示裝置





