[發明專利]一種面向深度學習訓練任務的分布式加速方法及系統有效
| 申請號: | 201910035752.4 | 申請日: | 2019-01-15 |
| 公開(公告)號: | CN109902818B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 劉萬濤;郭錦榮;虎嵩林;韓冀中 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063;G06N3/08;G06T1/20 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 深度 學習 訓練 任務 分布式 加速 方法 系統 | ||
本發明涉及一種面向深度學習訓練任務的分布式加速方法及系統。該方法的步驟包括:(1)搭建分布式GPU訓練集群;(2)采用換入換出策略,調節分布式GPU訓練集群中單個GPU工作節點上的minibatch size;(3)根據步驟2)確定的minibatch size調整學習率;(4)采用步驟(2)和(3)確定的超參數minibatch size和學習率進行深度學習訓練。本發明在不影響訓練準確率的前提下,簡單高效地通過減少集群間參數更新通信的次數大幅度地壓縮通信時間,相較于單GPU模式,在多GPU模式下能夠充分提高集群擴展效率,對超深神經網絡模型的訓練過程實現加速。
技術領域
本發明屬于深度學習領域,具體地說是針對分布式GPU集群訓練超深神經網絡模型過程中存在的集群擴展效率低、訓練慢的問題,提出了一種加速方法,減少訓練所需時間。
背景技術
近幾年來,大數據驅動的深度學習技術在人工智能的多個領域均取得了可觀的性能提升,神經網絡模型越來越深,數據規模越來越大已成為目前的基本趨勢。復雜的網絡模型往往需要更多的訓練數據才可獲得優秀的泛化能力,然而,訓練深模型大數據這樣的組合卻有著極大的挑戰。深度學習訓練任務屬于典型的計算密集型任務,因此常采用分布式GPU(Graphics Processing Unit-圖形處理器)集群進行訓練。集群中分別運行兩種任務:1)所有服務器的CPU(Central Processing Unit,中央處理器)端構成分布式參數服務器,參數在各個服務器上分片存儲,參數服務器負責保存以及更新網絡模型參數;2)每個GPU作為獨立的工作節點,輸入訓練數據計算求取參數的更新梯度值。一次迭代的基本流程是:1)所有工作節點從參數服務器端拉取最新模型參數;2)所有工作節點對分發到自己節點的數據進行前向反向計算求的參數梯度值;3)所有工作節點將自己求得的參數梯度值發送給參數服務器,參數服務器匯總所有工作節點的結果,然后更新參數值。
分布式訓練的理想擴展效率應正比于GPU工作節點的個數,然而,在實際訓練過程中卻常達不到理想效率,甚至比單個GPU訓練更慢,這主要是由于集群間的通信造成的。上述迭代過程中的步驟1)和3)由于參數更新均發生集群間通信,對于超深神經網絡結構,模型參數更多,通信量更大,此外,如果集群越大,則通信結構越復雜,兩者都會造成通信時間變長甚至抵消多GPU并行節省的計算時間。因此,有效解決分布式訓練過程中的通信問題對于提高集群擴展效率最終實現加速有重要意義。
深度學習的訓練過程是一個不斷重復迭代的過程,每次迭代都會重復上述的3個步驟,因此減輕通信負載有兩種途徑,分別是減少每次迭代的通信量和減少迭代的次數(即通信次數)。已有的技術大多集中于第一種途徑,通過量化、稀疏化梯度的方式對發送的梯度進行壓縮處理,達到減少單次通信量的目的,但該方法在大多數情況下會降低最終訓練準確率。因此,本發明致力于第二種途徑,深度學習任務訓練的樣本數是通常固定的,若每次迭代每個工作節點可處理的minibatch size增大,則整體迭代次數會降低,即達到減少通信次數的目標。
發明內容
鑒于以上所述現有技術存在的問題和不足,本發明要解決的技術問題是提供一種面向深度學習訓練任務的分布式加速方法及系統,該方法通過減少通信次數來降低分布式通信時間開銷,對整個訓練任務實現加速并保證最終訓練準確率。
為解決上述問題,本發明采用下述技術方案:
一種面向深度學習訓練任務的分布式加速方法,其具體步驟如下:
(1)、搭建分布式GPU訓練集群,包括:劃分參數服務器和工作節點、確定通信架構;
(2)、采用換入換出策略,調節單個GPU工作節點上的minibatch size;
(3)、根據minibatch size調整學習率;
(4)、采用步驟(2)和(3)確定的超參數minibatch size和學習率開始訓練直至結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910035752.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:板卡和神經網絡運算方法
- 下一篇:神經網絡計算方法、裝置、移動終端及存儲介質





