[發明專利]一種自適應低延遲內存計算引擎的數據分析方法有效
| 申請號: | 202010548158.8 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111736907B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 陳琳;崔嶺峰;黃杰 | 申請(專利權)人: | 湖南省星岳天璇科技有限公司 |
| 主分類號: | G06F9/4401 | 分類號: | G06F9/4401;G06F9/50;G06F11/30;G06F16/242;G06F16/25 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 周長清;鄒大堅 |
| 地址: | 410205 湖南省長沙市高新開發區*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 延遲 內存 計算 引擎 數據 分析 方法 | ||
本發明公開了一種自適應低延遲內存計算引擎的數據分析方法,步驟包括:步驟S1:定義Spark服務啟動相關的參數;步驟S2:在數據平臺上集成一次啟動處理過程;在首次啟動時,向Hadoop集群提交Spark任務運行請求,申請硬件資源容器;向Spark內部注冊進度監聽器HKSparkListener;啟動內部網絡服務端用于接收通過JDBC接口提交的SQL查詢請求及控制命令的處理;啟動JDBC接口解析器負責解析所有的SQL語句;向JVM注冊關機鉤子負責JVM退出時的清理工作,至此啟動結束;步驟S3:在進行SQL通信請求時,大數據平臺上集成的Spark驅動客戶端通過JDBC接口發起SQL查詢請求;步驟S4:當收到Spark驅動客戶端的停止控制命令時,停止Spark的容器進程。本發明具有原理簡單、適用范圍廣、授權管理保密性更好的等優點。
技術領域
本發明主要涉及到大數據分析內存計算引擎性能優化技術領域,特指一種自適應低延遲內存計算引擎的數據分析方法。
背景技術
當前,MapReduce編程模型已經成為主流的分布式編程模型,它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。但是MapReduce也存在一些缺陷,如高延遲、不支持DAG模型、Map與Reduce的中間數據落地等。因此在近兩年,出現了優化改進MapReduce的項目,如交互查詢引擎Impala、支持DAG的TEZ、支持內存計算Spark等。Spark相對與MapReduce的優勢有:低延遲、支持DAG和分布式內存計算。Spark在內存中對數據進行迭代計算如果數據由內存讀取是hadoop MapReduce的100倍。Spark是基于內存的迭代計算框架,適用于需要多次操作特定數據集的應用場合。需要反復操作的次數越多,所需讀取的數據量越大,受益越大,數據量小但是計算密集度較大的場合,會消耗較多的啟動時間。
當前Hadoop項目平臺中Spark使用方法主要有以下幾種:
(1)基于Spark-api開放的API腳本直接采用linux-shell的腳本調用方法,存在的問題是使用起來很不靈活,不能動態傳入參數,不能實現自動化集成。
(2)基于Azkaban等開源的大數據調度平臺實現對Spark-api開放的API腳本的集成方法,存在問題是azkaban代碼框架組織不好,不方便擴展、集成新功能。
(3)基于大數據集成平臺集成Native本地調用的方式調用Spark-api開放的API腳本。
以上三種方法都存在的問題是:采用Spark原生實現的底層,如jvm垃圾回收算法。數據壓縮算法性能較差,Spark內部的進度信息只能在自帶的監控展示頁面上看到,不方便集成到公司內部的系統中,實時性不高。單次任務啟動耗時很高,一般在40秒到一分鐘之內(視分配給Spark進程的CPU核心及內存等硬件資源參數而定),這些往往為了限制大數據量任務的整體執行速度,消耗較多的啟動時間。
發明內容
本發明要解決的技術問題就在于:針對現有技術存在的技術問題,本發明提供一種原理簡單、易實現、適用范圍廣、授權管理保密性更好的自適應低延遲內存計算引擎的數據分析方法。
為解決上述技術問題,本發明采用以下技術方案:
一種自適應低延遲內存計算引擎的數據分析方法,其步驟包括:
步驟S1:定義Spark服務啟動相關的參數;
步驟S2:在數據平臺上集成一次啟動處理過程;即,在首次啟動時,向Hadoop集群提交Spark任務運行請求,申請硬件資源容器;向Spark內部注冊進度監聽器HKSparkListener;啟動內部網絡服務端用于接收通過JDBC接口提交的SQL查詢請求及控制命令的處理;啟動JDBC接口解析器負責解析所有的SQL語句;向JVM注冊關機鉤子負責JVM退出時的清理工作,至此該程序啟動結束;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南省星岳天璇科技有限公司,未經湖南省星岳天璇科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010548158.8/2.html,轉載請聲明來源鉆瓜專利網。





