[發明專利]一種Spark分析結果的傳輸方法及裝置有效

申請號：	202010399306.4	申請日：	2020-05-12
公開（公告）號：	CN111597566B	公開（公告）日：	2021-03-16
發明（設計）人：	海克洪;張成成	申請（專利權）人：	湖北美和易思教育科技有限公司
主分類號：	G06F21/60	分類號：	G06F21/60;G06F9/54
代理公司：	武漢紅觀專利代理事務所(普通合伙) 42247	代理人：	李季
地址：	430000 湖北省武漢市東湖新技術***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種 spark 分析結果傳輸方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提出了一種Spark分析結果的傳輸方法及裝置。包括：獲取Dataset[A]類型的數據，將該Dataset[A]類型的數據轉化為List[JsObject]類型的數據；創建JsObject數據，將該List[JsObject]類型的數據存入JsObject數據中，并對該JsObject數據進行加密，獲取加密后的JsObject數據；通過HTTP POST請求將加密后的JsObject數據發送，并等待Spark數據更新，本發明通過HTTP請求實現了Spark批處理結果的傳輸，同時利用本地規則產生的加密字符串對待發送的內容進行加密，保證了Spark批處理結果的安全性和穩定性。

技術領域

本發明涉及大數據技術領域，尤其涉及一種Spark分析結果的傳輸方法及裝置。

背景技術

隨著大數據時代的發展，越來越多的企業在使用Spark進行批量或流數據的處理和分析，HDFS、關系型數據庫和Kafka是三種常用的結果存儲方式。HDFS適用于Spark批處理結果的存儲，包括中間結果和最終結果，其中，最終結果往往是聚合統計而來，因此數據量很小。由于Spark批處理程序一般是定時重復執行的，為了獲取最新的最終結果數據，用戶不得不編寫一個程序去定時讀取HDFS上的結果目錄。一方面，結果讀取程序的編寫、部署、運行和維護會增加一部分成本，另一方面，結果獲取的實時性也會因程序的定時任務運行方式而受到一定程度影響。關系型數據庫具有應用廣泛和使用方便的特點，適用于少量Spark批處理最終結果的存儲。要使用關系型數據庫進行數據中轉，用戶必須先安裝和運行數據庫軟件，然后建庫、建表，最后編寫和運行數據庫連接程序。Kafka是一種高吞吐量、高可用、分布式的“發布/訂閱”消息系統，主要適用于Spark流處理結果的存儲，也適合Spark批處理最終結果的存儲。要使用Kafka進行數據中轉，用戶必須先搭建和運行Kafka集群，然后創建和配置相關的Kafka主題，最后編寫和運行Kafka生產者、消費者。

但是，對于大部分Spark批處理應用，都要定時重復執行，而最終結果的數據量又往往很小。并且常用的HDFS、關系型數據庫和Kafka傳輸方案，在數據傳輸的過程中都無法保證數據的安全性和完整性，所以，亟需一種數據傳輸方法，能夠提高Spark批處理應用中數據傳輸的安全性和完整性。

上述內容僅用于輔助理解本發明的技術方案，并不代表承認上述內容是現有技術。

發明內容

有鑒于此，本發明提出了一種Spark分析結果的傳輸方法及裝置，旨在解決現有技術無法提高Spark批處理應用中數據傳輸的安全性和完整性問題。

本發明的技術方案是這樣實現的：

一方面，本發明提供了一種Spark分析結果的傳輸方法，所述Spark分析結果的傳輸方法包括以下步驟：

S1，獲取Dataset[A]類型的數據，根據本地轉換規則，將該Dataset[A]類型的數據轉化為List[JsObject]類型的數據；

S2，創建JsObject數據，將該List[JsObject]類型的數據存入JsObject數據中，獲取新JsObject數據，并根據本地預設規則設置特定字段對該新JsObject數據進行加密，獲取加密后的JsObject數據；

S3，通過HTTP POST請求將加密后的JsObject數據發送，并等待Spark數據更新。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于湖北美和易思教育科技有限公司，未經湖北美和易思教育科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】