[發明專利]一種數據處理方法、裝置、設備、系統和存儲介質在審
| 申請號: | 201911180814.7 | 申請日: | 2019-11-27 |
| 公開(公告)號: | CN112860417A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 陳國鋒;余萬水;楊鋒 | 申請(專利權)人: | 馬上消費金融股份有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/48 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;劉偉 |
| 地址: | 404100 重慶市渝北區*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 設備 系統 存儲 介質 | ||
本發明公開了一種數據處理方法、裝置、設備、系統和存儲介質,涉及數據處理技術領域,以解決執行器的處理結果不準確的問題。該方法包括:從分布式累加器獲取目標變量的累加值,其中,所述累加值是所述分布式累加器根據Spark中的執行器發送的累加信息獲得的;判斷所述累加值是否滿足預設條件,得到判斷結果;根據所述判斷結果確定處理方式。本發明實施例可提高執行器處理結果的準確性。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種數據處理方法、裝置、設備、系統和存儲介質。
背景技術
Spark是一種分布式集群計算平臺。Driver(驅動器)是Spark中運行的應用(Application),用于對整個流程進行協調和管理;Executor(執行器)是Spark的執行器,是為某個Application運行在worker node(工作節點)上的一個進程。
在使用Spark大數據平臺處理數據時,需要對某個變量進行實時累加計算,并根據累加結果對該變量執行不同的處理。在這個過程中,驅動器將變量的初始值分配到每個執行器,而后由每個執行器對變量的值進行累加。
由于分布式處理結構的限制,在這種方式中,執行器只能根據自身對某個變量的累加值進行處理,從而導致執行器的處理結果不準確。
發明內容
本發明實施例提供一種數據處理方法、裝置、設備、系統和存儲介質,以解決執行器的處理結果不準確的問題。
第一方面,本發明實施例提供了一種數據處理方法,應用于Spark中的執行器,所述執行器為至少一個,所述方法包括:
從分布式累加器獲取目標變量的累加值,其中,所述累加值是所述分布式累加器根據Spark中的執行器發送的累加信息獲得的;
判斷所述累加值是否滿足預設條件,得到判斷結果;
根據所述判斷結果確定處理方式。
第二方面,本發明實施例還提供一種數據處理方法,應用于分布式累加器,包括:
向Spark中的執行器發送目標變量的累加值,其中,所述累加值是根據Spark中的執行器發送的累加信息獲得的。
第三方面,本發明實施例還提供一種數據處理裝置,應用于Spark中的執行器,包括:
獲取模塊,用于從分布式累加器獲取目標變量的累加值,其中,所述累加值是所述分布式累加器根據Spark中的執行器發送的累加信息獲得的;
判斷模塊,用于判斷所述累加值是否滿足預設條件,得到判斷結果;
處理模塊,用于根據所述判斷結果確定處理方式。
第四方面,本發明實施例還提供一種數據處理裝置,應用于分布式累加器,包括:
發送模塊,用于向Spark中的執行器發送目標變量的累加值,其中,所述累加值是根據Spark中的執行器發送的累加信息獲得的。
第五方面,本發明實施例還提供一種電子設備,包括:收發器、存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,所述收發器用于在所述處理器的控制下接收和發送數據,所述處理器執行所述程序時實現如上所述的數據處理方法中的步驟。
第六方面,本發明實施例還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序被處理器執行時實現如上所述的數據處理方法中的步驟。
第七方面,本發明實施例還提供一種數據處理系統,包括:Spark中的執行器,分布式累加器;
所述分布式累加器,用于向所述執行器發送目標變量的累加值,其中,所述累加值是根據Spark中的執行器發送的累加信息獲得的;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馬上消費金融股份有限公司,未經馬上消費金融股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911180814.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種食用植物油的加工方法
- 下一篇:風扇





