[發(fā)明專利]一種hadoop集群運(yùn)行ETL流程的實(shí)時(shí)監(jiān)控方法及裝置有效

申請(qǐng)?zhí)枺?/td>	202010542701.3	申請(qǐng)日：	2020-06-15
公開（公告）號(hào)：	CN111722981B	公開（公告）日：	2021-05-07
發(fā)明（設(shè)計(jì)）人：	高東升;付銓;梅綱	申請(qǐng)（專利權(quán)）人：	武漢達(dá)夢(mèng)數(shù)據(jù)庫有限公司
主分類號(hào)：	G06F11/30	分類號(hào)：	G06F11/30;G06F9/54;G06F16/25;G06F16/21
代理公司：	深圳市六加知識(shí)產(chǎn)權(quán)代理有限公司 44372	代理人：	向彬
地址：	430000 湖北省武漢市東湖新技術(shù)開***	國省代碼：	湖北;42
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種 hadoop 集群運(yùn)行 etl 流程實(shí)時(shí) 監(jiān)控方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，具體涉及一種hadoop集群運(yùn)行ETL流程的實(shí)時(shí)監(jiān)控方法及裝置，其中方法包括：ETL hadoop引擎啟動(dòng)時(shí)部署監(jiān)控端RPC服務(wù)，以便各container訪問，進(jìn)而通知監(jiān)控端流程運(yùn)行狀態(tài)、節(jié)點(diǎn)運(yùn)行狀態(tài)以及節(jié)點(diǎn)運(yùn)行統(tǒng)計(jì)信息；container啟動(dòng)時(shí)部署container RPC服務(wù)并向監(jiān)控端注冊(cè)，以便監(jiān)控端間隔訪問container RPC服務(wù)，進(jìn)而刷新container內(nèi)部各節(jié)點(diǎn)的運(yùn)行統(tǒng)計(jì)信息。通過在監(jiān)控端和各container部署RPC服務(wù)，監(jiān)控端和container之間可互相訪問，從而準(zhǔn)確掌握流程運(yùn)行速度，有效解決分布式ETL框架中的流程監(jiān)控和信息匯總的問題。

【技術(shù)領(lǐng)域】

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，提供了一種hadoop集群運(yùn)行ETL流程的實(shí)時(shí)監(jiān)控方法及裝置。

【背景技術(shù)】

ETL是數(shù)據(jù)處理、構(gòu)建數(shù)據(jù)倉庫的一個(gè)重要工具軟件，完成異構(gòu)數(shù)據(jù)源的抽取、清洗轉(zhuǎn)換和加載的一個(gè)過程。傳統(tǒng)的ETL一般是把流程發(fā)布到一個(gè)集中的ETL服務(wù)器節(jié)點(diǎn)上運(yùn)行，所有的流程或流程內(nèi)組件的運(yùn)行均采用多線程機(jī)制，再多的流程也只能在一個(gè)單一節(jié)點(diǎn)運(yùn)行，并且一個(gè)大數(shù)據(jù)的處理流程，也無法提高數(shù)據(jù)處理的性能。

Hadoop大數(shù)據(jù)平臺(tái)在大數(shù)據(jù)處理中已經(jīng)取得相當(dāng)廣泛的應(yīng)用。MapReduce是面向大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái)，提供了一種簡(jiǎn)便的并行程序設(shè)計(jì)方法，用Map和Reduce兩個(gè)函數(shù)編程實(shí)現(xiàn)基本的并行計(jì)算任務(wù)，提供了抽象的操作和并行編程接口，以簡(jiǎn)單方便地完成大規(guī)模數(shù)據(jù)的編程和計(jì)算處理。

ETL配置的流程一般為DAG有向無環(huán)圖，但hadoop提供的兩個(gè)簡(jiǎn)單的map reduce函數(shù)只能完成簡(jiǎn)單DAG圖的運(yùn)行，無法完成稍微復(fù)雜一點(diǎn)DAG圖的運(yùn)行。而且，Hadoop雖然也提供了ChainMapper和ChainReducer的鏈?zhǔn)絤ap reduce，但在數(shù)據(jù)源的分區(qū)、分區(qū)數(shù)據(jù)源讀取、ETL流程運(yùn)行完整性、使用的方便靈活性和通用性等方面都存在一定的缺陷。

基于傳統(tǒng)ETL數(shù)據(jù)處理性能的制約以及簡(jiǎn)單使用hadoop存在的問題，我們實(shí)現(xiàn)了基于hadoop的分布式ETL框架，這種分布式ETL把流程提交到hadoop集群環(huán)境中執(zhí)行，并且盡可能把數(shù)據(jù)源拆分為多個(gè)分片數(shù)據(jù)源，從而把流程分解為多個(gè)子流程，這些子流程可并發(fā)運(yùn)行于hadoop集群環(huán)境，可以極大提高流程并發(fā)處理能力。對(duì)于只需要流式處理的，只需要在mapper中處理，不需要啟動(dòng)reducer；數(shù)據(jù)處理中也往往存在需要數(shù)據(jù)具備一定的順序性，才能高效率運(yùn)算處理，比如排序、聚合、連接、增量比對(duì)、去重復(fù)，這時(shí)候map reduce中的reduce可以予以應(yīng)用，部分流程可以在reducer中運(yùn)行，設(shè)置合適的reduce任務(wù)數(shù)，可以極大提高流程并發(fā)處理能力。

上述新的基于hadoop的分布式ETL框架極大提高了ETL流程并發(fā)處理能力，但是，在流程運(yùn)行提高并發(fā)處理能力的同時(shí)，通常還需要監(jiān)控運(yùn)行的ETL流程，實(shí)時(shí)或間隔關(guān)注流程運(yùn)行統(tǒng)計(jì)信息，比如數(shù)據(jù)抽取數(shù)量、清洗轉(zhuǎn)換數(shù)量以及裝載數(shù)量的統(tǒng)計(jì)。流程運(yùn)行的速度到底怎么樣？每個(gè)組件節(jié)點(diǎn)狀態(tài)如何？每個(gè)組件節(jié)點(diǎn)處理速度到底怎么樣？每個(gè)組件節(jié)點(diǎn)分布式運(yùn)行在哪些集群節(jié)點(diǎn)？單一服務(wù)器版本ETL比較容易解決這些問題，一個(gè)節(jié)點(diǎn)最多就是多線程運(yùn)行，一定在一個(gè)JVM里面運(yùn)行；而分布式ETL中一個(gè)節(jié)點(diǎn)被分解到多個(gè)任務(wù)中并發(fā)執(zhí)行，每一個(gè)任務(wù)在hadoop yarn的container中運(yùn)行，都是一個(gè)單獨(dú)的JVM。所以，如何監(jiān)控運(yùn)行的ETL流程、收集匯總流程運(yùn)行信息是分布式ETL框架必須考慮和解決的問題。

【發(fā)明內(nèi)容】

本發(fā)明需要解決的技術(shù)問題是：

傳統(tǒng)ETL流程數(shù)據(jù)處理性能較差，基于hadoop的分布式ETL框架可極大提高流程并發(fā)處理能力，在這同時(shí)需要監(jiān)控運(yùn)行的ETL流程，關(guān)注流程運(yùn)行統(tǒng)計(jì)信息。分布式ETL中一個(gè)節(jié)點(diǎn)被分解到多個(gè)任務(wù)中并發(fā)執(zhí)行，每一個(gè)任務(wù)在hadoop yarn的container中運(yùn)行，都是一個(gè)單獨(dú)的JVM。因此，如何實(shí)時(shí)監(jiān)控運(yùn)行的ETL流程是分布式ETL框架需要解決的問題。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢達(dá)夢(mèng)數(shù)據(jù)庫有限公司，未經(jīng)武漢達(dá)夢(mèng)數(shù)據(jù)庫有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010542701.3/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種塑料外護(hù)管聚氨酯保溫塑料復(fù)合管生產(chǎn)線及制造方法
下一篇：一種透光石材復(fù)合板及制作方法

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè)；錯(cuò)誤校正；監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生，例如，容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi)，通過測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測(cè)試或調(diào)試防止錯(cuò)誤

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】