[發明專利]基于計算引擎應用的數據處理方法、裝置及電子設備在審
| 申請號: | 202111502844.2 | 申請日: | 2021-12-09 |
| 公開(公告)號: | CN114398159A | 公開(公告)日: | 2022-04-26 |
| 發明(設計)人: | 陳偉均 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F8/65 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 單冠飛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算 引擎 應用 數據處理 方法 裝置 電子設備 | ||
本公開提供了一種基于計算引擎應用的數據處理方法、裝置及電子設備,涉及計算機技術領域,具體涉及云計算領域。具體實現方案為:響應于第一計算引擎Spark應用的當前狀態滿足預設的創建應用觸發條件,建立第二Spark應用;響應于第二Spark應用滿足數據處理條件,控制第一Spark應用停止處理數據,并確定第一Spark應用記錄的當前處理數據的第一訂閱點信息;控制第二Spark應用基于第一訂閱點信息開始處理數據。本公開通過建立新Spark應用,實現Spark應用之間的數據平滑遷移,無需重新指定舊Spark應用的處理核數和分區數,避免了因重啟舊Spark應用導致的下游數據斷層現象。
技術領域
本公開涉及計算機技術領域,尤其涉及云計算領域,特別涉及一種基于計算引擎應用的數據處理方法、裝置及電子設備。
背景技術
Spark streaming是基于Spark的流式批處理引擎用于實現對實時數據流的流式處理,其處理流程是以固定的時間間隔處理一批數據,將這一批數據利用Spark的集群處理優勢,提高處理速度,加快數據的轉換、業務處理及落盤數據。
在啟動計算引擎Spark應用(如Spark streaming應用)時,需指定處理核數(core)和分區數(partition),處理核數和分區數是決定Spark應用性能的兩個重要指標。如果在Spark應用處理數據的過程中的某個時刻出現大量數據,將導致Spark應用的處理速度變慢。
發明內容
本公開提供了一種基于計算引擎應用的數據處理方法、裝置及電子設備。
根據本公開的第一方面,提供了一種基于計算引擎應用的數據處理方法,包括:
響應于第一計算引擎Spark應用的當前狀態滿足預設的創建應用觸發條件,建立第二Spark應用;
響應于第二Spark應用滿足數據處理條件,控制第一Spark應用停止處理數據,并確定第一Spark應用記錄的當前處理數據的第一訂閱點信息;
控制第二Spark應用基于第一訂閱點信息開始處理數據。
根據本公開的第二方面,提供了一種基于計算引擎應用的數據處理裝置,包括:
建立模塊,響應于第一計算引擎Spark應用的當前狀態滿足預設的創建應用觸發條件,用于建立第二Spark應用;
控制模塊,響應于第二Spark應用滿足數據處理條件,用于控制第一Spark應用停止處理數據;
確定模塊,用于確定第一Spark應用記錄的當前處理數據的第一訂閱點信息;
其中,控制模塊,還用于控制第二Spark應用基于第一訂閱點信息開始處理數據。
根據本公開的第三方面,提供了一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行前述第一方面所述的基于計算引擎應用的數據處理方法。
根據本公開的第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行前述第一方面所述的基于計算引擎應用的數據處理方法。
根據本公開的第五方面,提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現根據前述第一方面所述的基于計算引擎應用的數據處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111502844.2/2.html,轉載請聲明來源鉆瓜專利網。





