[發(fā)明專利]一種hadoop集群運(yùn)行ETL流程的實(shí)時(shí)監(jiān)控方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202010542701.3 | 申請(qǐng)日: | 2020-06-15 |
| 公開(公告)號(hào): | CN111722981B | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設(shè)計(jì))人: | 高東升;付銓;梅綱 | 申請(qǐng)(專利權(quán))人: | 武漢達(dá)夢(mèng)數(shù)據(jù)庫有限公司 |
| 主分類號(hào): | G06F11/30 | 分類號(hào): | G06F11/30;G06F9/54;G06F16/25;G06F16/21 |
| 代理公司: | 深圳市六加知識(shí)產(chǎn)權(quán)代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 430000 湖北省武漢市東湖新技術(shù)開*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 hadoop 集群 運(yùn)行 etl 流程 實(shí)時(shí) 監(jiān)控 方法 裝置 | ||
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種hadoop集群運(yùn)行ETL流程的實(shí)時(shí)監(jiān)控方法及裝置,其中方法包括:ETL hadoop引擎啟動(dòng)時(shí)部署監(jiān)控端RPC服務(wù),以便各container訪問,進(jìn)而通知監(jiān)控端流程運(yùn)行狀態(tài)、節(jié)點(diǎn)運(yùn)行狀態(tài)以及節(jié)點(diǎn)運(yùn)行統(tǒng)計(jì)信息;container啟動(dòng)時(shí)部署container RPC服務(wù)并向監(jiān)控端注冊(cè),以便監(jiān)控端間隔訪問container RPC服務(wù),進(jìn)而刷新container內(nèi)部各節(jié)點(diǎn)的運(yùn)行統(tǒng)計(jì)信息。通過在監(jiān)控端和各container部署RPC服務(wù),監(jiān)控端和container之間可互相訪問,從而準(zhǔn)確掌握流程運(yùn)行速度,有效解決分布式ETL框架中的流程監(jiān)控和信息匯總的問題。
【技術(shù)領(lǐng)域】
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,提供了一種hadoop集群運(yùn)行ETL流程的實(shí)時(shí)監(jiān)控方法及裝置。
【背景技術(shù)】
ETL是數(shù)據(jù)處理、構(gòu)建數(shù)據(jù)倉庫的一個(gè)重要工具軟件,完成異構(gòu)數(shù)據(jù)源的抽取、清洗轉(zhuǎn)換和加載的一個(gè)過程。傳統(tǒng)的ETL一般是把流程發(fā)布到一個(gè)集中的ETL服務(wù)器節(jié)點(diǎn)上運(yùn)行,所有的流程或流程內(nèi)組件的運(yùn)行均采用多線程機(jī)制,再多的流程也只能在一個(gè)單一節(jié)點(diǎn)運(yùn)行,并且一個(gè)大數(shù)據(jù)的處理流程,也無法提高數(shù)據(jù)處理的性能。
Hadoop大數(shù)據(jù)平臺(tái)在大數(shù)據(jù)處理中已經(jīng)取得相當(dāng)廣泛的應(yīng)用。MapReduce是面向大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái),提供了一種簡(jiǎn)便的并行程序設(shè)計(jì)方法,用Map和Reduce兩個(gè)函數(shù)編程實(shí)現(xiàn)基本的并行計(jì)算任務(wù),提供了抽象的操作和并行編程接口,以簡(jiǎn)單方便地完成大規(guī)模數(shù)據(jù)的編程和計(jì)算處理。
ETL配置的流程一般為DAG有向無環(huán)圖,但hadoop提供的兩個(gè)簡(jiǎn)單的map reduce函數(shù)只能完成簡(jiǎn)單DAG圖的運(yùn)行,無法完成稍微復(fù)雜一點(diǎn)DAG圖的運(yùn)行。而且,Hadoop雖然也提供了ChainMapper和ChainReducer的鏈?zhǔn)絤ap reduce,但在數(shù)據(jù)源的分區(qū)、分區(qū)數(shù)據(jù)源讀取、ETL流程運(yùn)行完整性、使用的方便靈活性和通用性等方面都存在一定的缺陷。
基于傳統(tǒng)ETL數(shù)據(jù)處理性能的制約以及簡(jiǎn)單使用hadoop存在的問題,我們實(shí)現(xiàn)了基于hadoop的分布式ETL框架,這種分布式ETL把流程提交到hadoop集群環(huán)境中執(zhí)行,并且盡可能把數(shù)據(jù)源拆分為多個(gè)分片數(shù)據(jù)源,從而把流程分解為多個(gè)子流程,這些子流程可并發(fā)運(yùn)行于hadoop集群環(huán)境,可以極大提高流程并發(fā)處理能力。對(duì)于只需要流式處理的,只需要在mapper中處理,不需要啟動(dòng)reducer;數(shù)據(jù)處理中也往往存在需要數(shù)據(jù)具備一定的順序性,才能高效率運(yùn)算處理,比如排序、聚合、連接、增量比對(duì)、去重復(fù),這時(shí)候map reduce中的reduce可以予以應(yīng)用,部分流程可以在reducer中運(yùn)行,設(shè)置合適的reduce任務(wù)數(shù),可以極大提高流程并發(fā)處理能力。
上述新的基于hadoop的分布式ETL框架極大提高了ETL流程并發(fā)處理能力,但是,在流程運(yùn)行提高并發(fā)處理能力的同時(shí),通常還需要監(jiān)控運(yùn)行的ETL流程,實(shí)時(shí)或間隔關(guān)注流程運(yùn)行統(tǒng)計(jì)信息,比如數(shù)據(jù)抽取數(shù)量、清洗轉(zhuǎn)換數(shù)量以及裝載數(shù)量的統(tǒng)計(jì)。流程運(yùn)行的速度到底怎么樣?每個(gè)組件節(jié)點(diǎn)狀態(tài)如何?每個(gè)組件節(jié)點(diǎn)處理速度到底怎么樣?每個(gè)組件節(jié)點(diǎn)分布式運(yùn)行在哪些集群節(jié)點(diǎn)?單一服務(wù)器版本ETL比較容易解決這些問題,一個(gè)節(jié)點(diǎn)最多就是多線程運(yùn)行,一定在一個(gè)JVM里面運(yùn)行;而分布式ETL中一個(gè)節(jié)點(diǎn)被分解到多個(gè)任務(wù)中并發(fā)執(zhí)行,每一個(gè)任務(wù)在hadoop yarn的container中運(yùn)行,都是一個(gè)單獨(dú)的JVM。所以,如何監(jiān)控運(yùn)行的ETL流程、收集匯總流程運(yùn)行信息是分布式ETL框架必須考慮和解決的問題。
【發(fā)明內(nèi)容】
本發(fā)明需要解決的技術(shù)問題是:
傳統(tǒng)ETL流程數(shù)據(jù)處理性能較差,基于hadoop的分布式ETL框架可極大提高流程并發(fā)處理能力,在這同時(shí)需要監(jiān)控運(yùn)行的ETL流程,關(guān)注流程運(yùn)行統(tǒng)計(jì)信息。分布式ETL中一個(gè)節(jié)點(diǎn)被分解到多個(gè)任務(wù)中并發(fā)執(zhí)行,每一個(gè)任務(wù)在hadoop yarn的container中運(yùn)行,都是一個(gè)單獨(dú)的JVM。因此,如何實(shí)時(shí)監(jiān)控運(yùn)行的ETL流程是分布式ETL框架需要解決的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢達(dá)夢(mèng)數(shù)據(jù)庫有限公司,未經(jīng)武漢達(dá)夢(mèng)數(shù)據(jù)庫有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010542701.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè);錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測(cè)試或調(diào)試防止錯(cuò)誤
- 一種實(shí)現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲(chǔ)模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計(jì)算的Hadoop平臺(tái)度量方法
- 云環(huán)境中模型驅(qū)動(dòng)的Hadoop部署方法
- 基于麒麟云計(jì)算平臺(tái)的Hadoop集群自動(dòng)化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲(chǔ)、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲(chǔ)介質(zhì)
- 一種文件型門衛(wèi)式存儲(chǔ)加密功能的Hadoop系統(tǒng)及其應(yīng)用方法
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時(shí)維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺(tái)多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點(diǎn)和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)介質(zhì)
- 混合云場(chǎng)景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒?、系統(tǒng)、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 運(yùn)行控制裝置及運(yùn)行控制方法
- 運(yùn)行支援裝置、運(yùn)行支援系統(tǒng)以及運(yùn)行支援程序
- 列車運(yùn)行處理方法、運(yùn)行處理裝置和運(yùn)行調(diào)度系統(tǒng)
- 運(yùn)行監(jiān)測(cè)系統(tǒng)及運(yùn)行監(jiān)測(cè)方法
- 運(yùn)行控制裝置及運(yùn)行控制方法
- 運(yùn)行曲線制作裝置、運(yùn)行輔助裝置以及運(yùn)行控制裝置
- 運(yùn)行支持裝置、車輛、運(yùn)行管理裝置和運(yùn)行支持方法
- 運(yùn)行計(jì)劃方法、運(yùn)行控制裝置和運(yùn)行計(jì)劃系統(tǒng)
- 運(yùn)行控制裝置、運(yùn)行管理系統(tǒng)、運(yùn)行控制方法以及車輛
- 自動(dòng)建模運(yùn)行系統(tǒng)及運(yùn)行方法
- 數(shù)據(jù)抽取、轉(zhuǎn)換和加載的執(zhí)行方法和裝置
- 為ETL任務(wù)分配節(jié)點(diǎn)的方法和調(diào)度系統(tǒng)
- 一種用于調(diào)度ETL任務(wù)的方法與設(shè)備
- 一種基于元數(shù)據(jù)的ETL實(shí)現(xiàn)方法及系統(tǒng)
- 一種監(jiān)控任務(wù)運(yùn)行的方法和設(shè)備
- 一種分布式數(shù)據(jù)ETL處理方法及裝置
- 一種基于多服務(wù)節(jié)點(diǎn)的數(shù)據(jù)處理系統(tǒng)及其方法
- ETL任務(wù)調(diào)度方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于元數(shù)據(jù)的ETL任務(wù)批量生成方法
- ETL文件拆分方法及裝置





