[發(fā)明專利]一種基于airflow和yarn的任務(wù)調(diào)度方法、裝置及介質(zhì)有效
| 申請?zhí)枺?/td> | 201910900859.0 | 申請日: | 2019-09-23 |
| 公開(公告)號: | CN110673939B | 公開(公告)日: | 2021-12-28 |
| 發(fā)明(設(shè)計)人: | 洪嘉凱;巫朝星;陳旺明;林智輝;鄭旭 | 申請(專利權(quán))人: | 漢納森(廈門)數(shù)據(jù)股份有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 廈門福貝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35235 | 代理人: | 陳遠(yuǎn)洋 |
| 地址: | 361000 福建省廈門市廈*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 airflow yarn 任務(wù) 調(diào)度 方法 裝置 介質(zhì) | ||
1.一種基于airflow和yarn的任務(wù)調(diào)度方法,其特征在于,該方法包括:
確定步驟,確定一組任務(wù)中的一項任務(wù)taski與其他任務(wù)之間的依賴關(guān)系Di、該項任務(wù)最早能執(zhí)行的時間TZi和每個任務(wù)必須結(jié)束的截止時間TDi,并動態(tài)設(shè)置每個任務(wù)的允許運(yùn)行的時間范圍TPi,然后將taski、Di、TZi、TDi和TPi組成一條數(shù)據(jù)記錄(taski、Di、TZi、TDi、TPi)存在數(shù)據(jù)庫中,其中一組任務(wù)中包括N項任務(wù),1≦i≦N;
Airflow配置生成步驟,根據(jù)數(shù)據(jù)庫中存儲的一組任務(wù)中的每一任務(wù)的數(shù)據(jù)記錄(taski、Di、TZi、TDi、TPi)生成該任務(wù)的python文件,當(dāng)所有任務(wù)都生成python文件后提交Airflow服務(wù)器進(jìn)行任務(wù)的執(zhí)行;
任務(wù)運(yùn)行記錄步驟,利用爬蟲訪問yarn的管理界面獲取該組任務(wù)的所有任務(wù)的運(yùn)行情況并存入數(shù)據(jù)庫,所述運(yùn)行情況包括每一項任務(wù)的占用資源情況和每一項任務(wù)的實(shí)際開始結(jié)束時間,并基于所述運(yùn)行情況生成資源疊加圖;
任務(wù)調(diào)整步驟,使用爬蟲基于該組任務(wù)的組標(biāo)識dag_id訪問Airflow服務(wù)器獲取該組任務(wù)中每一任務(wù)的實(shí)際運(yùn)行時間、消耗內(nèi)存與依賴關(guān)系,并基于每一任務(wù)的實(shí)際運(yùn)行時間、消耗內(nèi)存與依賴關(guān)系生成網(wǎng)絡(luò)甘特圖,基于所述資源疊加圖和網(wǎng)絡(luò)甘特圖調(diào)整任務(wù)的執(zhí)行順序;
其中,基于所述資源疊加圖和網(wǎng)絡(luò)甘特圖調(diào)整任務(wù)的執(zhí)行順序的操作為:基于所述資源疊加圖計算出資源消耗最大的時間點(diǎn),確定該時間點(diǎn)對應(yīng)的所有任務(wù)的標(biāo)識,基于該時間點(diǎn)對應(yīng)的所有任務(wù)的標(biāo)識在網(wǎng)絡(luò)甘特圖確定對應(yīng)的所有矩形,基于每一任務(wù)的數(shù)據(jù)記錄(taski、Di、TZi、TDi、TPi)調(diào)整該時間點(diǎn)對應(yīng)的所有任務(wù)的順序;
基于每一任務(wù)的數(shù)據(jù)記錄(taski、Di、TZi、TDi、TPi)調(diào)整該時間點(diǎn)對應(yīng)的所有任務(wù)的順序操作為:基于該組任務(wù)中每一任務(wù)的數(shù)據(jù)記錄計算一條關(guān)鍵路徑,關(guān)鍵路徑是指一組任務(wù)中從開始到結(jié)束的執(zhí)行時長最長的邏輯路徑,每一任務(wù)均不向前移動,移動某一任務(wù)時,根據(jù)數(shù)據(jù)記錄確定依賴該任務(wù)的任務(wù),對依賴該任務(wù)的任務(wù)也相應(yīng)地進(jìn)行移動;如果待移動的任務(wù)位于關(guān)鍵路徑上,則不進(jìn)行移動;判斷待移動的任務(wù)和依賴它的任務(wù)在移動之后的結(jié)束時間是否超過其設(shè)定的允許最晚結(jié)束時間,如果是,則不移動;判斷待移動的任務(wù)和依賴它的任務(wù)在移動之后的結(jié)束時間是否大于移動之前的最晚結(jié)束任務(wù)的結(jié)束時間,如果是,則不移動。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述占用資源情況為占用內(nèi)存或處理器情況。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述資源疊加圖的橫坐標(biāo)為時間,縱坐標(biāo)為各個時間點(diǎn)對應(yīng)的所有任務(wù)占用的資源的和,所述網(wǎng)絡(luò)甘特圖中的每個矩形表示一項任務(wù),矩形的長度為該任務(wù)的運(yùn)行時間,開始結(jié)束時間與時間軸上的時間相對應(yīng),矩形框高度表示該任務(wù)所消耗的資源量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于漢納森(廈門)數(shù)據(jù)股份有限公司,未經(jīng)漢納森(廈門)數(shù)據(jù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910900859.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)ETL系統(tǒng)及方法
- 基于Airflow的數(shù)據(jù)計算調(diào)度方法
- 一種基于電力大數(shù)據(jù)的數(shù)據(jù)計算調(diào)度方法
- 醫(yī)用霧化器(AirFlow)
- 霧化杯(AirFlow)
- 基于Airflow的分布式異步任務(wù)構(gòu)建、調(diào)度系統(tǒng)及方法
- 基于數(shù)倉任務(wù)和模型任務(wù)的頁面配置的任務(wù)調(diào)度方法
- 一種流程編排服務(wù)調(diào)度和發(fā)布方法
- 直流壓縮式霧化器(AirFlow 10)
- 數(shù)據(jù)處理方法、裝置及存儲介質(zhì)
- 一種基于時間的yarn任務(wù)資源動態(tài)調(diào)度方法
- 一種YARN集群GPU資源調(diào)度方法、裝置和介質(zhì)
- 一種資源配置方法、設(shè)備、裝置和計算機(jī)可讀存儲介質(zhì)
- 一種基于NiFi的大數(shù)據(jù)計算方法及裝置
- 一種基于Mesos和YARN結(jié)合的DCOS云管理平臺
- 一種Spark作業(yè)的提交方法及裝置
- 一種YARN組件高可用性功能的測試方法、系統(tǒng)及設(shè)備
- 一種基于YARN集群的資源管理方法、計算機(jī)設(shè)備和存儲介質(zhì)
- 任務(wù)調(diào)度方法、裝置、任務(wù)調(diào)度平臺及計算機(jī)存儲介質(zhì)
- 一種對Spark任務(wù)分片所使用內(nèi)存的限制方法及系統(tǒng)
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計算機(jī)可讀介質(zhì)
- 一種自動分配和推送的任務(wù)管理平臺及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲介質(zhì)
- 基于會話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)





