[發明專利]一種hadoop集群運行ETL流程的實時監控方法及裝置有效
| 申請號: | 202010542701.3 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111722981B | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 高東升;付銓;梅綱 | 申請(專利權)人: | 武漢達夢數據庫有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F9/54;G06F16/25;G06F16/21 |
| 代理公司: | 深圳市六加知識產權代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 430000 湖北省武漢市東湖新技術開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 hadoop 集群 運行 etl 流程 實時 監控 方法 裝置 | ||
1.一種hadoop集群運行ETL流程的實時監控方法,其特征在于,ETL流程根據reduce節點被分解為一個或多個MRWork,MRWork中的reducer數根據reduce節點和/或hadoop集群可申請container數設置;每個MRWork的數據源被拆分為多個分片數據源,進而使ETL流程被分解為多個子流程在hadoop中并發執行,每個子流程對應一個container,container為mapper container或reducer container;則在ETL流程運行過程中,實時監控方法包括:
ETL hadoop執行引擎啟動時部署監控端RPC服務,以便各container調用訪問監控端RPC服務,進而在運行過程中實時通知監控端流程運行狀態、節點運行狀態以及節點運行統計信息;
container啟動時部署container RPC服務并向監控端注冊ContainerExecutor,以便監控端間隔調用訪問container RPC服務,進而間隔刷新container內部各節點的運行統計信息;
其中,每當提交一個ETL流程到hadoop運行,監控端生成一個與該ETL流程的唯一ExecuteID相關聯的MapReduceFlow,以便與各container進行交互,進而獲取流程運行狀態、節點運行狀態以及節點運行統計信息;當ETL流程運行完成時,監控端清除該流程ExecuteID對應的MapReduceFlow;其中,所述MapReduceFlow對應每個節點分別生成MRActivityNodeMonitor,用于監控對應節點的狀態以及節點在每個container中的運行情況。
2.根據權利要求1所述的hadoop集群運行ETL流程的實時監控方法,其特征在于,對于任一container,所述在運行過程中實時通知監控端流程運行狀態、節點運行狀態以及節點運行統計信息,具體為:
container啟動mapper graph或reducer graph;
graph開始運行后,通知監控端RPC服務對應的子流程開始運行,使得監控端獲取流程的監控信息FlowMonitorBean;
graph內部各節點開始運行后,通知監控端RPC服務節點開始運行,使得監控端獲取節點的監控信息ActivityMonitorBean;
graph內部各節點運行完成后,通知監控端RPC服務節點運行完成,使得監控端獲取節點的監控信息ActivityMonitorBean;
graph運行完成后,通知監控端RPC服務對應的子流程運行完成,使得監控端獲取流程的監控信息FlowMonitorBean;
其中,所述FlowMonitorBean包括流程運行狀態、流程運行起始時間、流程消息,以及流程運行于container的host和port中的一項或多項;所述ActivityMonitorBean包括節點運行狀態、節點運行起始時間、節點消息、節點運行統計信息,以及節點運行于container的host和port中的一項或多項。
3.根據權利要求2所述的hadoop集群運行ETL流程的實時監控方法,其特征在于,當監控端首次接收到任一子流程開始運行的通知后,所述方法還包括:監控端通過ExecuteID找到運行的ETL流程的MapReduceFlow,如果MapReduceFlow當前運行狀態為NEW狀態,則設置為RUNNING狀態。
4.根據權利要求2所述的hadoop集群運行ETL流程的實時監控方法,其特征在于,當監控端接收到任一container發送來的任一節點開始運行的通知之后,所述方法還包括:
監控端獲取該節點對應的MRActivityNodeMonitor以及發送通知的container對應的ContainerExecutor,并在MRActivityNodeMonitor的startedContainerList中增加該ContainerExecutor,以便監控端間隔刷新該節點的運行統計信息;其中,startedContainerList表示已經啟動運行的ContainerExecutor的列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢達夢數據庫有限公司,未經武漢達夢數據庫有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010542701.3/1.html,轉載請聲明來源鉆瓜專利網。





