[發明專利]實現任務調度的方法、裝置及系統在審
| 申請號: | 202010015575.6 | 申請日: | 2020-01-07 |
| 公開(公告)號: | CN111190718A | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 陳迪豪;包新啟;王太澤;范曉亮;陳靚;穆妮;王子賢 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50;G06N20/00 |
| 代理公司: | 北京博雅睿泉專利代理事務所(特殊普通合伙) 11442 | 代理人: | 吳秀娥 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實現 任務 調度 方法 裝置 系統 | ||
本發明提供了一種實現任務調度的方法、裝置及系統,該方法包括:獲取客戶端提交的目標數據處理任務、及目標數據處理任務的運行參數;獲取可用計算集群的資源使用信息;根據目標處理任務的運行參數和可用計算集群的資源使用信息,從可用計算集群中選取目標計算集群;將目標數據處理任務調度至目標計算集群中運行。
技術領域
本發明涉及數據處理技術領域,更具體地,涉及一種實現任務調度的方法、一種實現任務調度的裝置、一種包括至少一個計算裝置和至少一個存儲裝置的系統、及一種可讀存儲介質。
背景技術
Spark是目前主流的開源大數據處理框架,廣泛用于機器學習的數據清洗、數據探索和特征抽取等大數據處理任務。目前Spark支持的調度數據處理任務的計算集群包括Kubernetes計算集群、YARN計算集群、Mesos計算集群、Standalone計算集群以及Local計算集群。
用戶在通過客戶端提交數據處理任務時,需要預先通過--master和--deploy-mode參數來指定運行該數據處理任務的計算集群,而且,每次提交數據處理任務時只能選擇一個計算集群。
但是,在真實的企業環境中,一般都會有多個Yarn計算集群和/或Kubernetes計算集群,這些計算集群都可以為Spark數據處理任務提供計算資源。如果客戶端每次都只向同一個計算集群提交數據處理任務,可能導致該計算集群資源不足、而其他計算集群空閑,使得計算集群的整體資源利用率較低。
發明內容
本發明的一個目的是提供一種調度數據處理任務的新技術方案。
根據本發明的第一方面,提供了一種實現任務調度的方法,包括:
獲取客戶端提交的目標數據處理任務、及所述目標數據處理任務的運行參數;
獲取可用計算集群的資源使用信息;
根據所述目標數據處理任務的運行參數和所述可用計算集群的資源使用信息,從所述可用計算集群中選取目標計算集群;
將所述目標數據處理任務調度至所述目標計算集群中運行。
可選的,該方法還包括:獲取后端計算集群的注冊信息,完成計算集群的注冊;
所述可用計算集群為已注冊的計算集群。
可選的,所述根據所述目標數據處理任務的運行參數和所述可用計算集群的資源使用信息,從所述可用計算集群中選取目標計算集群包括:
根據所述目標數據處理任務的運行參數,從所述可用計算集群中選取剩余資源大于或等于運行所述目標數據處理任務所需的資源的可用計算集群,作為備選計算集群;
根據所述資源使用信息,從所述備選計算集群中選取所述目標計算集群。
可選的,所述根據所述資源使用信息,從所述備選計算集群中選取所述目標計算集群包括:
從所述備選計算集群中,選取剩余資源最大的一個,作為所述目標計算集群。
可選的,所述根據所述資源使用信息,從所述備選計算集群中選取所述目標計算集群包括:
從所述備選計算集群中,選取已使用資源最多的一個,作為所述目標計算集群。
可選的,所述根據所述資源使用信息,從所述備選計算集群中選取所述目標計算集群包括:
基于預設的集群評分模型,根據所述資源使用信息和所述運行參數,確定每一所述備選計算集群的評分;
根據所述評分選取所述目標計算集群。
可選的,還包括訓練所述集群評分模型的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010015575.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種飛機跑道下隧道基坑沉降控制方法
- 下一篇:一種包裝防潮保潤性能的評價方法





