[發明專利]一種同步訓練方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201910989412.5 | 申請日: | 2019-10-17 |
| 公開(公告)號: | CN110688230B | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 彭紹東;黎偉杰;陳飛;韓旭 | 申請(專利權)人: | 廣州文遠知行科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/52;G06N20/00;G06N3/08 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 510555 廣東省廣州市廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 同步 訓練 方法 裝置 計算機 設備 存儲 介質 | ||
本發明實施例公開了一種同步訓練方法、裝置、計算機設備和存儲介質。該方法包括:確定訓練任務,所述訓練任務用于訓練指定的數據模型;在容器集群中為所述訓練任務調配圖形處理器,以形成資源調度表;根據所述資源調度表在所述容器集群中創建滿足相互通信與保持同步的主控容器和工作容器;所述主控容器與所述工作容器共同使用所述圖形處理器同步訓練所述數據模型。一方面,可實現同步分布式訓練,從而保證訓練的數據模型收斂,提高精確度,另一方面,在訓練時啟動主控容器與工作容器,無需提前啟動工作容器、預留工作容器,減少對圖形處理器的占用,提高圖形處理器的利用效率。
技術領域
本發明實施例涉及大數據處理的技術,尤其涉及一種同步訓練方法、裝置、計算機設備和存儲介質。
背景技術
目前,機器學習與深度學習在計算機視覺、自然語言處理、文本理解等眾多領域都具有廣泛的應用。
機器學習與深度學習通常使用GPU(Graphics Processing Unit,圖形處理器)訓練數據模型,但是,一臺機器的圖形處理器GPU數量有限,隨著數據量的增加和數據模型復雜度的提高,單臺機器的訓練效率不能滿足訓練數據模型的需求,為了提高訓練的效率,目前大多采用在容器集群中進行分布式訓練的方案。
在分布式訓練的方案中,異步分布式訓練較為成熟,容器集群中的各個節點均分配有數據進行計算,各個節點在完成一個批量數據的計算之后,不等待其它節點計算的結果,直接使用其計算的結果去更新數據模型。
由于不等待其它節點的計算結果,單個節點的計算結果并不一定是最優,導致訓練的數據模型并不一定收斂,精確度較低。
發明內容
本發明實施例提供一種同步訓練方法、裝置、計算機設備和存儲介質,以解決在容器集群中使用異步分布式訓練的數據模型并不一定收斂,精確度較低的問題。
第一方面,本發明實施例提供了一種同步訓練方法,包括:
確定訓練任務,所述訓練任務用于訓練指定的數據模型;
在容器集群中為所述訓練任務調配圖形處理器;
在所述容器集群中創建滿足相互通信與保持同步的主控容器和工作容器;
所述主控容器與所述工作容器共同使用所述圖形處理器同步訓練所述數據模型。
第二方面,本發明實施例還提供了一種同步訓練裝置,包括訓練任務確定模塊、圖形處理器調配模塊和容器集群:
所述訓練任務確定模塊,用于確定訓練任務,所述訓練任務用于訓練指定的數據模型;
所述圖形處理器調配模塊,用于在容器集群中為所述訓練任務調配圖形處理器;
所述容器集群包括:
容器創建模塊,用于在所述容器集群中創建滿足相互通信與保持同步的主控容器和工作容器;
所述主控容器與協調所述工作容器,用于共同使用所述圖形處理器同步訓練所述數據模型。
第三方面,本發明實施例還提供了一種計算機設備,所述計算機設備包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如第一方面所述的同步訓練方法。
第四方面,本發明實施例還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如第一方面所述的同步訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州文遠知行科技有限公司,未經廣州文遠知行科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910989412.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:任務處理方法和裝置
- 下一篇:讀寫請求統計信息的處理方法、裝置和系統





