[發明專利]模型訓練方法、服務器和計算機可讀存儲介質有效
| 申請號: | 201810133203.6 | 申請日: | 2018-02-09 |
| 公開(公告)號: | CN110134636B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 戎海棟 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F15/163 | 分類號: | G06F15/163;G06N3/08 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 姜春咸;馮建基 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 服務器 計算機 可讀 存儲 介質 | ||
本發明公開了一種模型訓練方法、服務器和計算機可讀存儲介質,屬于人工智能計算領域。其中,該方法包括:接收到訓練作業后,獲取作業信息;將模型復制到每個GPU,并同步每個GPU的模型參數的初始值;每次迭代提取一部分樣本數據,將提取的樣本數據拆分后分發給不同的GPU進行訓練,對所有GPU的訓練得到的參數梯度進行全局規約操作,并在各GPU上根據規約之后的參數梯度更新所述模型參數;完成迭代次數的迭代后,選擇任意一個GPU的模型參數保存為模型訓練結果。本發明通過充分利用GPU?GPU高速數據傳輸帶寬,消除計算節點間的帶寬瓶頸和計算能力瓶頸,從而提高模型在GPU集群上的同步訓練效率和加速比。
技術領域
本發明涉及人工智能計算領域,特別涉及一種模型訓練方法、服務器和計算機可讀存儲介質。
背景技術
深度學習模型的訓練需要消耗龐大的計算資源,完成一次訓練的耗時可達數天乃至數月。為加快模型訓練,往往需要使用大規模GPU(Graphic?Processing?Unit,圖形處理器)集群進行并行訓練,同時,深度學習訓練任務常采用一些并行算法將訓練任務分配到多個計算節點上同時運行,其中包括數據并行和模型并行兩大類并行算法,以數據并行較為常用。
在數據并行算法中,如圖1所示,通常使用PS-Worker(Parameter
Server-Worker,參數服務器-計算節點)架構部署在GPU集群上,其中PS用于存儲模型參數,Worker持有CPU、GPU資源并負責模型訓練計算任務,PS與Worker間以及各Worker之間常需進行大數據量交互,主要包括:每個深度學習的迭代中,每個Worker與PS間都需要完成一次參數梯度傳輸和參數的更新。由于交互數據量很大,PS-Worker間帶寬和CPU處理能力常因此成為瓶頸,Worker上的GPU的強大并行計算能力無從發揮,導致系統加速比低、可擴展性差,硬件資源浪費。
發明內容
有鑒于此,本發明的目的在于提供一種模型訓練方法、裝置、服務器和存儲介質。以在不增加硬件投資的前提下,消除計算節點間的帶寬瓶頸和計算能力瓶頸,從而提高模型訓練加速比。
本發明解決上述技術問題所采用的技術方案如下:
根據本發明的一個方面,提供的一種模型訓練方法包括:
接收到訓練作業后,獲取作業信息;其中,所述作業信息包括模型、樣本數據和迭代次數;
將所述模型復制到每個GPU,并同步所述每個GPU的模型參數的初始值;
每次迭代提取一部分樣本數據,將所述提取的樣本數據拆分后分發給不同的GPU進行訓練,對所有GPU的訓練得到的參數梯度進行全局規約操作,并在各GPU上根據規約之后的參數梯度更新所述模型參數;
完成所述迭代次數的迭代后,選擇任意一個GPU的模型參數保存為模型訓練結果。
根據本發明的另一個方面,提供的一種模型訓練服務器包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執行時實現上述模型訓練方法的步驟。
根據本發明的又一個方面,還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時,實現上述模型訓練方法的步驟。
本發明實施例提供的模型訓練方法、服務器和計算機可讀存儲介質,在不顯著增加硬件投資的前提下,通過優化系統部署和算法,充分利用GPU-GPU高速數據傳輸帶寬,減少CPU-GPU間通訊需求,消除計算節點間的帶寬瓶頸和計算能力瓶頸,從而提高模型訓練加速比。
附圖說明
圖1為本發明相關技術中PS-Worker分布式系統的架構示意圖;
圖2為本發明實施例提供的一種無PS的分布式訓練系統的架構示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810133203.6/2.html,轉載請聲明來源鉆瓜專利網。





