[發明專利]一種基于容器的并行深度學習調度訓練方法及系統有效
| 申請號: | 201910122127.3 | 申請日: | 2019-02-19 |
| 公開(公告)號: | CN109885389B | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 竇洋;楊繼偉;方亞東 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50;G06F9/455 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 容器 并行 深度 學習 調度 訓練 方法 系統 | ||
本發明公開了一種基于容器的并行深度學習調度訓練方法及系統,屬于云計算和深度學習技術領域,本發明要解決的技術問題為如何避免訓練時TensorFlow的各個Task資源無法隔離,因資源搶占而互相影響、缺乏調度能力、上層開發量大以及查看每個Task訓練任務及日志不便,采用的技術方案為:該方法是利用Kubernetes容器實現對任務的計算資源的配置和調度,提供ResourceQuota、LimitRanger多種資源管理機制,在容器集群中通過pod節點之間的通信,實現任務之間的資源隔離;同一訓練節點同時啟動訓練pod和生命周期管理pod,并由LCM統一進行資源作業調度,微服務架構本身作為POD部署,依賴Kubernetes最新版本特性,有效地調動GPU的使用。本發明還公開了一種基于容器的并行深度學習調度訓練系統。
技術領域
本發明涉及云計算和深度學習技術領域,具體地說是一種基于容器的并行深度學習調度訓練方法及系統。
背景技術
隨著機器學習和深度學習技術的迅速發展,越來越多的個人和企業青睞使用Google發布的TensorFlow框架進行深度學習訓練。該框架是一個使用數據流圖進行數值計算的開源軟件庫,有時深度學習模型需要的計算量太大,這就需要使用分布式計算,通過Client提交Session,定義一個worker,指定特定的CPU/GPU去運行訓練任務。然而,運行該框架的并行計算模式時,不論是同步模式還是異步模式都存在一定的缺陷。
訓練時TensorFlow的各個Task資源無法隔離,很可能導致任務之間因資源搶占而相互影響;缺乏調度能力,需要用戶手動配置和管理計算任務的計算資源;集群規模大時,想要跟蹤和管理每個任務的狀態,需要在上層做大量的開發;用戶在查看每個Task訓練任務及其日志時都非常不方便。
故如何避免訓練時TensorFlow的各個Task資源無法隔離,因資源搶占而互相影響、缺乏調度能力、上層開發量大以及查看每個Task訓練任務及日志不便是目前現有技術中急需解決的技術問題。
專利號為CN107783818A的專利文獻公開了深度學習任務處理方法、裝置、設備及存儲介質,其中方法包括:當獲取到深度學習任務時,向KVM發起創建虛擬機的請求,并指定創建虛擬機所需的資源,以便KVM根據請求創建虛擬機;將深度學習任務以及Docker鏡像傳入虛擬機;根據Docker鏡像在虛擬機內啟動Docker,并在Docker中運行深度學習任務。該技術方案需要向KVM發請求啟動虛擬機、需要把GPU/CPU資源傳入Docker且無法將實現了事件和日志的監控輸出,不能有效避免訓練時TensorFlow的各個Task資源無法隔離,因資源搶占而互相影響、缺乏調度能力、上層開發量大以及查看每個Task訓練任務及日志不便的問題。
發明內容
本發明的技術任務是提供一種基于容器的并行深度學習調度訓練方法及系統,來解決如何避免訓練時TensorFlow的各個Task資源無法隔離,因資源搶占而互相影響、缺乏調度能力、上層開發量大以及查看每個Task訓練任務及日志不便的問題。
本發明的技術任務是按以下方式實現的,一種基于容器的并行深度學習調度訓練方法,該方法是利用Kubernetes容器實現對任務的計算資源的配置和調度,提供ResourceQuota、LimitRanger多種資源管理機制,在容器集群中通過pod節點之間的通信,實現任務之間的資源隔離;同一訓練節點同時啟動訓練pod和生命周期管理pod,并由LCM統一進行資源作業調度,微服務架構本身作為POD部署,依賴Kubernetes最新版本特性,有效地調動GPU的使用,當K8S作業因OS、docker或機器故障中的任何故障原因崩潰時,重新啟動微服務架構,并報告微服務架構的健康;訓練工作默認是按FIFO順序安排,LCM支持作業優先級,對于每個訓練任務,LCM使用按需來請求所需資源集(例如,GPU、存儲器),提高了訓練的可靠性和計算資源的利用率。
作為優選,該方法的具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910122127.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于異構系統的數據處理方法和裝置
- 下一篇:分子對接云計算流程控制方法





