[發明專利]基于Airflow的數據計算調度方法在審
| 申請號: | 201911005641.5 | 申請日: | 2019-10-22 |
| 公開(公告)號: | CN110764747A | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 錢斌;肖勇;鄭楷洪;蔡梓文;周密 | 申請(專利權)人: | 南方電網科學研究院有限責任公司;中國南方電網有限責任公司電網技術研究中心 |
| 主分類號: | G06F8/30 | 分類號: | G06F8/30;G06F16/27 |
| 代理公司: | 31253 上海精晟知識產權代理有限公司 | 代理人: | 安曼 |
| 地址: | 510670 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 定時服務 定時條件 數據計算 原始數據 生成樹 導出 獲取數據 基礎模塊 解析模型 任務存儲 數據存儲 依賴關系 拓展性 腳本 觸發 數據庫 掃描 調度 拓展 成功 | ||
1.基于Airflow的數據計算調度方法,其特征在于,包括以下步驟:
步驟一:開始任務,生成樹,任務實例并導出原始數據;
步驟二:生成樹,任務實例接著進行scheduler安排定時服務同時,Dag生成定義任務和依賴與scheduler掃描定時服務同時輸入至所有任務存儲在數據庫中判斷是否滿足定時條件,當滿足定時條件時解析模型;
步驟三:當導出原始數據成功時向下進行數據計算1同時將數據存儲到HDFS且HDFS獲取數據,當導出原始數據失敗時定時任務失敗同時任務日志記錄到源數據庫中;
步驟四:當數據計算1成功時既向下進行數據計算2、數據計算3、數據計算4和數據計算5,又將數據計算1的計算結果保存到HDFS,及mpp;
步驟五:HDFS獲取結果數據與數據計算2、數據計算3、數據計算4和數據計算5同時并行任務,同時將存儲過程入庫并數據存儲至HDFS及Mpp。
2.如權利要求1所述的基于Airflow的數據計算調度方法,其特征在于,完整架構包含以下組件:
(1)作業定義,包含在源代碼控制中;
(2)一個豐富的命令行工具或者命令行接口用來測試、運行、回填、描述和清理你的Airflow的組成部件;
(3)一個web應用程序,用來瀏覽Airflow的定義、依賴項、進度、元數據和日志,Web服務器打包在Airflow里面并且是基于Python框架Flask構建;
(4)一個元數據倉庫,通常是一個MySQL或者Postgres數據庫,Airflow可以用它來記錄任務作業狀態和其他持久化的信息;
(5)一組工作節點,以分布式的方式運行作業的任務實例;
(6)調度程序,觸發準備運行的任務實例;
(7)RBAC權限管理,高強度的對用戶權限進行了劃分,可以細致到頁面上的每個頁面、每個按鈕和每個任務。
3.如權利要求1所述的基于Airflow的數據計算調度方法,其特征在于,Airflow推動處理的工序:
(1)數據倉庫;
(2)增長分析;
(3)試驗;
(4)定向郵件;
(5)會話;
(6)搜索;
(7)數據基礎架構維護。
4.如權利要求1所述的基于Airflow的數據計算調度方法,其特征在于,Airflow可提供1對1,1對多,多對1的依賴關系,并可通過trigger_rule來設置上下游節點的運行規則。
5.如權利要求4所述的基于Airflow的數據計算調度方法,其特征在于,trigger_rule對應的參數如下:
(1)All_success:上級依賴全部執行成功,執行下級;
(2)All_failed:上級依賴全部執行失敗,執行下級;
(3)One_success:一個上級依賴執行成功,執行下級;
(4)One_failed:一個上級依賴執行失敗,執行下級;
(5)All_done:上級依賴全部執行完畢,無論success或failed,執行下級;
(6)None_failed:所有的上級依賴,沒有failed及upstream_failed狀態,執行下級;
(7)none_skipped:上級處于skipped狀態,執行下級;
相互依賴的任務將會根據其上下游關系,按照配置的trigger_rule從上游向下游有序執行。
6.如權利要求1所述的基于Airflow的數據計算調度方法,其特征在于,在步驟五中的并行任務為:
場景一All_success;
場景二All_done;
場景三All_failed。
7.如權利要求1所述的基于Airflow的數據計算調度方法,其特征在于,調度程序基于依賴關系,定時執行一整套的流程任務,Airflow在每個實例會通過向程序提供相同的參數,控制各個程序依賴于同一個數據源和同一批數據,并且維持上下級的數據依賴關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方電網科學研究院有限責任公司;中國南方電網有限責任公司電網技術研究中心,未經南方電網科學研究院有限責任公司;中國南方電網有限責任公司電網技術研究中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911005641.5/1.html,轉載請聲明來源鉆瓜專利網。





