[發明專利]模型訓練方法和裝置在審
| 申請號: | 202110956777.5 | 申請日: | 2021-08-19 |
| 公開(公告)號: | CN113569987A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 胡俊琪;魏艷偉;朱小坤;牛文杰;李開榮;包勇軍 | 申請(專利權)人: | 北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F9/455;G06N20/00;G06F16/182 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 徐敏;楊倩 |
| 地址: | 100176 北京市北京經濟技術*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 裝置 | ||
本發明公開了一種模型訓練方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:獲取模型訓練任務的訓練配置信息,所述訓練配置信息包括:角色信息、環境信息及算法配置信息;根據所述角色信息,在容器平臺的集群上創建相應個數的容器;根據所述環境信息,配置所述容器對應的節點的運行環境;利用模型訓練框架,在所述節點上啟動所述算法配置信息對應的訓練模型;利用所述容器平臺,調度所述容器,以使所述節點執行所述模型訓練任務。該實施方式能夠提升模型訓練效率且減輕工作人員的工作量。
技術領域
本發明涉及計算機技術領域,尤其涉及一種模型訓練方法和裝置。
背景技術
現有技術中,工作人員通常通過本地物理機或者訓練平臺執行模型訓練任務。本地物理機上執行訓練任務的時間成本較高。而在訓練平臺上執行模型訓練任務時,由于工作人員對分布式訓練運行環境是無感知的,通常需要工作人員手動將訓練模型部署到各工作節點上,這是十分復雜且耗時的。
發明內容
有鑒于此,本發明實施例提供一種模型訓練方法和裝置,能夠自動將訓練模型部署到各工作節點上,從而提升模型訓練系統的部署效率且減輕工作人員的工作量。
第一方面,本發明實施例提供了一種模型訓練方法,包括:
獲取模型訓練任務的訓練配置信息,所述訓練配置信息包括:角色信息、環境信息及算法配置信息;
根據所述角色信息,在容器平臺的集群上創建相應個數的容器;
根據所述環境信息,配置所述容器對應的節點的運行環境;
利用模型訓練框架,在所述節點上啟動所述算法配置信息對應的訓練模型;
利用所述容器平臺,調度所述容器,以使所述節點執行所述模型訓練任務。
可選地,所述節點執行所述模型訓練任務,包括:
所述節點通過所述節點對應的容器向數據服務中心發送文件處理請求;
響應于所述文件處理請求,所述數據服務中心確定所述節點的下一批次文件信息,并將所述下一批次文件信息發送給所述節點;
所述節點獲取所述下一批次文件信息對應的下一批次訓練文件,并利用所述下一批次訓練文件執行所述模型訓練任務。
可選地,所述數據服務中心設置有針對每個所述節點的隊列,所述隊列中的元素用于表征所述節點未完成訓練的訓練文件;
所述數據服務中心確定所述節點的下一批次文件信息,包括:
根據所述文件處理請求,所述數據服務中心確定所述節點對當前批次的訓練文件的處理狀態;
在所述處理狀態為處理成功的情況下,所述數據服務中心從所述節點對應的隊列中刪除目標元素,所述目標元素對應于所述當前批次的訓練文件;
所述數據服務中心從所述節點對應的隊列中,確定出所述節點的下一批次文件信息。
可選地,所述根據所述文件處理請求,所述數據服務中心確定所述節點對當前批次的訓練文件的處理狀態之后,還包括:
在所述處理狀態為處理失敗的情況下,根據所述數據服務中心中所述節點對應的隊列中的元素,對所述節點進行容錯處理。
可選地,所述數據服務中心設置有針對每個所述節點的隊列,所述隊列中的元素用于表征所述節點未完成訓練的訓練文件;
所述利用所述容器平臺,調度所述容器之后,還包括:
在系統出現故障的情況下,獲取所述數據服務中心中各所述節點對應的隊列中的元素;
根據各所述節點對應的隊列中的元素,對各所述節點進行容錯處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司,未經北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110956777.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:儲能系統
- 下一篇:一種關節靈敏度協調的訓練裝置





