[發明專利]一種基于Docker鏡像構建模型訓練任務調度的方法及系統在審
| 申請號: | 202211061721.4 | 申請日: | 2022-08-31 |
| 公開(公告)號: | CN115543557A | 公開(公告)日: | 2022-12-30 |
| 發明(設計)人: | 李森林;郝江波;周明;黃昌進 | 申請(專利權)人: | 武漢光庭信息技術股份有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/455 |
| 代理公司: | 武漢藍寶石專利代理事務所(特殊普通合伙) 42242 | 代理人: | 萬暢 |
| 地址: | 430000 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 docker 構建 模型 訓練 任務 調度 方法 系統 | ||
本發明涉及一種基于Docker鏡像構建模型訓練任務調度的方法及系統,包括:建立模型訓練環境的Docker鏡像;使每個模型訓練任務對應為Docker鏡像啟動的一個或多個獨立的Docker容器,基于Docker容器中的日志輸出信息和服務器系統信息對各個模型訓練任務的訓練過程信息進行監控;構建調度管理平臺,調度管理平臺定時獲取各個Docker容器的狀態,并對訓練過程信息中的重要信息進行通知或展示;將數據集和算法都集成到Docker容器中去進行訓練,通過獲取Docker容器的系統信息以及內部輸出的日志信息可以監控訓練任務的運行狀況,獲取容器信息并加以分析的過程以及對Docker容器的啟停操作都可以通過調度管理平臺來做,解決了訓練任務監控與管理低效的問題。
技術領域
本發明涉及模型訓練領域,尤其涉及一種基于Docker鏡像構建模型訓練任務調度的方法及系統。
背景技術
通常在模型訓練有以下階段:
第一,在模型訓練準備階段,需要搭建完整的訓練環境,包括訓練需要的操作系統,訓練需要的語言框架,例如PyTorch,以及訓練需要的資源,例如CPU、GPU等,此階段的問題是針對不同的算法,需要不同的訓練環境,而在物理機或者虛擬機上部署好這些訓練環境是較為復雜的,是不便于環境移植的。
第二,在模型訓練運行階段,訓練人員需要監控所有的訓練任務進度,關注每臺訓練機器的資源占用情況,此階段的問題是訓練人員只能通過單獨查看每臺訓練機器上的運行情況來監控以上信息,對訓練的啟停也只能通過每臺訓練機器單獨操作,這種監控方法和對訓練任務的管理都是較為低效的,訓練完成的任務或者訓練中發生的異常問題也無法及時被訓練人員知曉。
發明內容
本發明針對現有技術中存在的技術問題,提供一種基于Docker鏡像構建模型訓練任務調度的方法及系統,可以解決以上提到的環境部署復雜的問題、環境不容易移植的問題、訓練任務監控與管理低效的問題。
根據本發明的第一方面,提供了一種基于Docker鏡像構建模型訓練任務調度的方法,包括:建立模型訓練環境的Docker鏡像;
使每個模型訓練任務對應為所述Docker鏡像啟動的一個或多個獨立的Docker容器,基于Docker容器中的日志輸出信息和服務器系統信息對各個所述模型訓練任務的訓練過程信息進行監控;
構建調度管理平臺,所述調度管理平臺定時獲取各個所述Docker容器的狀態,并對所述訓練過程信息中的重要信息進行通知或展示。
在上述技術方案的基礎上,本發明還可以作出如下改進。
可選的,所述建立模型訓練環境的Docker鏡像包括:
通過編寫Dockerfile文件制作鏡像,選擇當前模型訓練對應的基礎鏡像以及對應的環境插件,進行鏡像制作并上傳倉庫。
可選的,所述使每個模型訓練任務對應為所述Docker鏡像啟動的一個或多個獨立的Docker容器的方法包括:
新建所述模型訓練任務時,指定在一臺或多臺資源服務器上創建所述Docker容器;
創建所述Docker容器的過程包括:通過配置化的方式指定所述Docker容器創建參數,所述Docker容器的創建參數包括:鏡像路徑名稱、啟動入口文件、數據集路徑、算法路徑以及運行環境的指定。
可選的,所述創建Docker容器的過程包括:
從倉庫拉取對應的Docker鏡像文件,自動創建并啟動Docker容器運行,在創建Docker容器的參數中,指定模型訓練需要的訓練信息,所述訓練信息包括:數據集、算法以及算法啟動命令文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢光庭信息技術股份有限公司,未經武漢光庭信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211061721.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種控制轉發分離的網絡連接跟蹤實現方法
- 下一篇:切換閥裝置





