[發(fā)明專利]一種支持多類集群后端的深度學(xué)習(xí)調(diào)度系統(tǒng)及調(diào)度方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110360064.2 | 申請(qǐng)日: | 2021-04-02 |
| 公開(kāi)(公告)號(hào): | CN113065848A | 公開(kāi)(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 黃進(jìn)軍;謝冬鳴;林健 | 申請(qǐng)(專利權(quán))人: | 東云睿連(武漢)計(jì)算技術(shù)有限公司 |
| 主分類號(hào): | G06Q10/10 | 分類號(hào): | G06Q10/10;G06F9/50;G06N3/04 |
| 代理公司: | 武漢智正誠(chéng)專利代理事務(wù)所(普通合伙) 42278 | 代理人: | 熊遠(yuǎn) |
| 地址: | 430074 湖北省武漢市東湖新技術(shù)開(kāi)發(fā)區(qū)金融*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 支持 集群 后端 深度 學(xué)習(xí) 調(diào)度 系統(tǒng) 方法 | ||
1.一種支持多類集群后端的深度學(xué)習(xí)調(diào)度系統(tǒng),其特征在于,所述系統(tǒng)包括作業(yè)管理組件、集群管理組件和至少一個(gè)后端集群;
所述作業(yè)管理組件,用于接收終端用戶通過(guò)預(yù)設(shè)接口提交的符合統(tǒng)一抽象數(shù)據(jù)格式的深度學(xué)習(xí)作業(yè)請(qǐng)求;按照深度學(xué)習(xí)作業(yè)的統(tǒng)一抽象數(shù)據(jù)格式進(jìn)行作業(yè)信息解析;
所述作業(yè)管理組件,還用于根據(jù)解析出的深度學(xué)習(xí)作業(yè)信息,從所述集群管理組件中獲取與所述深度學(xué)習(xí)作業(yè)信息的運(yùn)行條件相匹配的目標(biāo)后端集群;
所述作業(yè)管理組件,還用于根據(jù)匹配到的目標(biāo)后端集群的作業(yè)集群信息對(duì)統(tǒng)一的作業(yè)格式數(shù)據(jù)進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換為目標(biāo)作業(yè)格式,所述目標(biāo)作業(yè)格式為符合匹配到的所述目標(biāo)后端集群的作業(yè)集群信息可接收的數(shù)據(jù)格式;
所述作業(yè)管理組件,還用于調(diào)用所述目標(biāo)后端集群的對(duì)應(yīng)驅(qū)動(dòng)側(cè)程序?qū)⑺瞿繕?biāo)作業(yè)格式提交至所述目標(biāo)后端集群,以從所述目標(biāo)后端集群中獲取目標(biāo)作業(yè)響應(yīng)結(jié)果;
所述作業(yè)管理組件,還用于將所述目標(biāo)作業(yè)響應(yīng)結(jié)果轉(zhuǎn)換至統(tǒng)一抽象數(shù)據(jù)格式;
所述作業(yè)管理組件,還用于將所述統(tǒng)一抽象數(shù)據(jù)格式返回至所述終端用戶。
2.如權(quán)利要求1所述的調(diào)度系統(tǒng),其特征在于,所述后端集群的類型包括高性能集群、容器化集群和大數(shù)據(jù)集群中的至少一種。
3.如權(quán)利要求2所述的調(diào)度系統(tǒng),其特征在于,所述高性能集群為Slurm集群;所述容器化集群為Kubernetes集群;其中,所述Kubernetes集群使用REST API接口與后端集群進(jìn)行交互;所述Slurm集群使用Slurm提供的命令行工具與后端集群進(jìn)行交互。
4.如權(quán)利要求1所述的調(diào)度系統(tǒng),其特征在于
所述作業(yè)管理組件用于以統(tǒng)一的抽象數(shù)據(jù)格式提供了提交深度學(xué)習(xí)作業(yè)的REST API;
所述作業(yè)管理組件用于以統(tǒng)一的抽象數(shù)據(jù)格式提供了獲取深度學(xué)習(xí)作業(yè)的狀態(tài)的REST API;
所述作業(yè)管理組件用于以統(tǒng)一的抽象數(shù)據(jù)格式提供了停止深度學(xué)習(xí)作業(yè)的REST API;
所述作業(yè)管理組件還用于內(nèi)部處理外部統(tǒng)一抽象作業(yè)格式到集群側(cè)驅(qū)動(dòng)的具體格式轉(zhuǎn)換;
所述作業(yè)管理組件還用于將統(tǒng)一作業(yè)請(qǐng)求發(fā)送至后端作業(yè)集群。
5.如權(quán)利要求1-4任一項(xiàng)所述的調(diào)度系統(tǒng),其特征在于,
所述集群管理組件,用于添加后端作業(yè)集群;
所述集群管理組件,還用于查詢后端作業(yè)集群的元數(shù)據(jù)信息。
6.如權(quán)利要求5所述的調(diào)度系統(tǒng),其特征在于,所述集群管理組件用于同時(shí)接入一個(gè)或多個(gè)后端集群,所述后端集群的種類與組件提供的適配支持相關(guān)。
所述集群管理組件,還用于提供對(duì)多類后端集群的統(tǒng)一抽象描述,描述內(nèi)容至少包括:集群名稱、集群類型、集群接入地址、和集群認(rèn)證信息;
所述集群管理組件,還用于提供查詢所有后端集群的信息的方法;
所述集群管理組件,還用于提供監(jiān)聽(tīng)后端集群的狀態(tài)和取消后端集群監(jiān)聽(tīng)的方法,其中,所述集群管理組件通過(guò)監(jiān)聽(tīng)集群來(lái)獲取所述深度學(xué)習(xí)作業(yè)的最新?tīng)顟B(tài)信息和相關(guān)運(yùn)行時(shí)信息;
所述集群管理組件,還用于提供供客戶端進(jìn)行集群管理和查詢集群信息的API接口。
7.如權(quán)利要求5所述的調(diào)度系統(tǒng),其特征在于,所述集群管理組件用于為多類集群提供統(tǒng)一的作業(yè)創(chuàng)建、停止、及刪除操作入口;
所述集群管理組件還用于對(duì)統(tǒng)一抽象的作業(yè)數(shù)據(jù)接口的編程實(shí)現(xiàn);
所述集群管理組件還用于對(duì)統(tǒng)一抽象作業(yè)的生命周期管理的編程實(shí)現(xiàn);
所述集群管理組件還用于提供了對(duì)終端用戶統(tǒng)一的訪問(wèn)接口;
所述集群管理組件還用于支持多種運(yùn)行模式的深度學(xué)習(xí)作業(yè)的調(diào)度,其運(yùn)行模式包括但不限于:?jiǎn)芜M(jìn)程模式、多進(jìn)程模式、PS-Worker分布式模式、Master-Worker分布式模式、以及MPI分布式模式;
所述集群管理組件還用于為各類型集群環(huán)境分別提供集群側(cè)驅(qū)動(dòng)的適配支持,包括但不限于:提交作業(yè)的支持、停止作業(yè)的支持、以及獲取作業(yè)狀態(tài)的支持;
所述集群管理組件還用于為多類集群提供統(tǒng)一的查詢作業(yè)狀態(tài)、作業(yè)日志、作業(yè)資源使用情況的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東云睿連(武漢)計(jì)算技術(shù)有限公司,未經(jīng)東云睿連(武漢)計(jì)算技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110360064.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問(wèn)題”或“下料問(wèn)題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉(cāng)儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫(kù)存管理,例如訂貨、采購(gòu)或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時(shí)維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺(tái)多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點(diǎn)和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)介質(zhì)
- 混合云場(chǎng)景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





