[發明專利]Spark應用程序控制方法及控制裝置有效
| 申請號: | 201811580726.1 | 申請日: | 2018-12-24 |
| 公開(公告)號: | CN109634784B | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 文燕軍;盧春洋;吳文鈞 | 申請(專利權)人: | 康成投資(中國)有限公司 |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14 |
| 代理公司: | 上海盈盛知識產權代理事務所(普通合伙) 31294 | 代理人: | 孫佳胤;陳麗麗 |
| 地址: | 200436*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | spark 應用 程序控制 方法 控制 裝置 | ||
本發明涉及通信技術領域,尤其涉及一種Spark應用程序控制方法及控制裝置。所述Spark應用程序控制方法,包括如下步驟:判斷Spark應用程序的歷史狀態參數是否有效,若是,則將所述歷史狀態參數加入所述Spark應用程序的運行環境;根據獲取的歷史狀態參數運行所述Spark應用程序;判斷所述Spark應用程序是否出現運行異常,若是,則保留所述Spark應用程序的當前狀態參數;存儲所述當前狀態參數于管理員中,以更新所述歷史狀態參數。本發明確保Spark應用程序運行的可承接性,避免因狀態的不連續造成數據缺失、數據重復消費等問題,提高了程序的可用性。
技術領域
本發明涉及通信技術領域,尤其涉及一種Spark應用程序控制方法及控制裝置。
背景技術
Spark Streaming是將流式計算分解成一系列短小的批處理作業。這里的批處理引擎是Spark,也就是把Spark Streaming的輸入數據按照batch size(如1秒)分成一段一段的數據(Discretized Stream),每一段數據都轉換成Spark中的RDD(ResilientDistributed Dataset),然后將Spark Streaming中對DStream的Transformation操作變為針對Spark中對RDD的Transformation操作,將RDD經過操作變成中間結果保存在內存中。整個流式計算根據業務的需求可以對中間的結果進行疊加,或者存儲到外部設備。Kafka是分布式發布-訂閱消息系統。它最初由LinkedIn公司開發,之后成為Apache項目的一部分。Kafka是一個分布式的、可劃分的、冗余備份的持久性的日志服務。
目前,Spark Streaming獲取Kafka數據的方式主要有Receiver和Direct兩種,Receiver方式是通過Zookeeper來連接Kafka隊列,Direct方式是直接連接到Kafka的節點上獲取數據了。其中,基于Receiver的數據獲取方式,一旦系統因發生異常而重新啟動Spark Streaming后,由于Spark與Kafka中的Zookeeper(管理員)之間可能是不同步的,消費者會重復處理已經處理過的數據,無法保證數據被處理且僅被處理一次。基于Direct的數據獲取方式,一旦系統因發生異常或者作業需要而重新啟動Spark Streaming后,業務日志仍然會打入到Kafka中,當業務重啟后只能從最新的偏移量(Offset)開始消費消息,容易導致重啟過程中的消息丟失。
因此,如何避免應用程序在中斷后易出現數據丟失的問題,是目前亟待解決的問題。
發明內容
本發明提供一種Spark應用程序控制方法及控制裝置,用以解決現有技術中Spark應用程序在中斷后易出現數據丟失的問題,以減少數據延遲,增加應用程序的適用性。
為了解決上述問題,本發明提供了一種Spark應用程序控制方法,包括如下步驟:
判斷Spark應用程序的歷史狀態參數是否有效,若是,則將所述歷史狀態參數加入所述Spark應用程序的運行環境;
根據獲取的歷史狀態參數運行所述Spark應用程序;
判斷所述Spark應用程序是否出現運行異常,若是,則保留所述Spark應用程序的當前狀態參數;
存儲所述當前狀態參數于管理員中,以更新所述歷史狀態參數。
優選的,所述歷史狀態參數與所述當前狀態參數均包括所述Spark應用程序的標識、開始偏移量和截止偏移量。
優選的,根據獲取的歷史狀態參數運行所述Spark應用程序的具體步驟包括:
從所述歷史狀態參數中的截止偏移量處開始分批次讀取日志中的數據;
所述Spark應用程序消費從所述日志中讀取的數據。
優選的,還包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于康成投資(中國)有限公司,未經康成投資(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811580726.1/2.html,轉載請聲明來源鉆瓜專利網。





