[發明專利]基于計算引擎應用的數據處理方法、裝置及電子設備在審

申請號：	202111502844.2	申請日：	2021-12-09
公開（公告）號：	CN114398159A	公開（公告）日：	2022-04-26
發明（設計）人：	陳偉均	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G06F9/48	分類號：	G06F9/48;G06F8/65
代理公司：	北京清亦華知識產權代理事務所(普通合伙) 11201	代理人：	單冠飛
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于計算引擎應用數據處理方法裝置電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供了一種基于計算引擎應用的數據處理方法、裝置及電子設備，涉及計算機技術領域，具體涉及云計算領域。具體實現方案為：響應于第一計算引擎Spark應用的當前狀態滿足預設的創建應用觸發條件，建立第二Spark應用；響應于第二Spark應用滿足數據處理條件，控制第一Spark應用停止處理數據，并確定第一Spark應用記錄的當前處理數據的第一訂閱點信息；控制第二Spark應用基于第一訂閱點信息開始處理數據。本公開通過建立新Spark應用，實現Spark應用之間的數據平滑遷移，無需重新指定舊Spark應用的處理核數和分區數，避免了因重啟舊Spark應用導致的下游數據斷層現象。

技術領域

本公開涉及計算機技術領域，尤其涉及云計算領域，特別涉及一種基于計算引擎應用的數據處理方法、裝置及電子設備。

背景技術

Spark streaming是基于Spark的流式批處理引擎用于實現對實時數據流的流式處理，其處理流程是以固定的時間間隔處理一批數據，將這一批數據利用Spark的集群處理優勢，提高處理速度，加快數據的轉換、業務處理及落盤數據。

在啟動計算引擎Spark應用(如Spark streaming應用)時，需指定處理核數(core)和分區數(partition)，處理核數和分區數是決定Spark應用性能的兩個重要指標。如果在Spark應用處理數據的過程中的某個時刻出現大量數據，將導致Spark應用的處理速度變慢。

發明內容

本公開提供了一種基于計算引擎應用的數據處理方法、裝置及電子設備。

根據本公開的第一方面，提供了一種基于計算引擎應用的數據處理方法，包括：

響應于第一計算引擎Spark應用的當前狀態滿足預設的創建應用觸發條件，建立第二Spark應用；

響應于第二Spark應用滿足數據處理條件，控制第一Spark應用停止處理數據，并確定第一Spark應用記錄的當前處理數據的第一訂閱點信息；

控制第二Spark應用基于第一訂閱點信息開始處理數據。

根據本公開的第二方面，提供了一種基于計算引擎應用的數據處理裝置，包括：