[發明專利]一種基于神經網絡的參數更新方法、分布式訓練平臺系統在審
| 申請號: | 202010110959.6 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN113298222A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 張曼妮;李楊;張翔宇;孫軍歡 | 申請(專利權)人: | 深圳致星科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06T1/20 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 何姣 |
| 地址: | 518000 廣東省深圳市南山區粵海街道高新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 參數 更新 方法 分布式 訓練 平臺 系統 | ||
本發明提供一種基于神經網絡的參數更新方法、分布式訓練平臺系統。其中,根據設備內和設備間GPU的分階段聚合,以及在設備間首節點GPU(Leader GPU)采用高效的Allreduce方式進行參數聚合,以避免中心化的PS(Parameter Server)參數聚合通信模型對多機多GPU集群可擴展性的限制;另外也可避免去中心化的Ring?Allreduce方式在超大規模GPU集群需求下數據通信存在延時開銷的問題。
技術領域
本發明涉及深度學習領域中深度學習神經網絡的參數更新技術;具體地,涉及一種基于神經網絡的參數更新方法、分布式訓練平臺系統。
背景技術
近年來,人工智能,特別是深度學習,在圖像識別,語言處理等領域取得重大突破,并且開始廣泛應用于商業活動中。深度學習能夠取得如此重大突破的一個關鍵原因是深度學習在訓練過程中處理了大量樣本,從樣本中學習到樣本之中包含的眾多特征。
人工神經網絡(Artificial Neural Network,ANN,以下簡稱神經網絡)在本領域被提及時,其通常是指由一定數量的高度互聯的單一處理單元(processing elements,也即節點(nodes))組成的計算系統;其中,這些處理單元通過其對外部輸入的動態狀態響應來處理信息。其中,深度神經網絡(Deep Neural Network,DNN)是人工神經網絡中的一種;其在輸入層和輸出層之間具有多個隱藏層。與淺層ANN相似,深度神經網絡能夠對復雜的非線性關系建模。和大多數機器學習算法通過生成符合訓練數據的模型進而在以生成的模型對輸入數據進行預測一樣,深度學習算法,也需要通過深度神經網絡的模型訓練,來找到符合的模型參數值,以使深度學習算法模型可以提供準確的預測。
其中,一種深度學習神經網絡訓練方法的過程,包括了前向傳播(forwardpasspropagation)和后向傳播(backpropagation)的使用。其中,前向傳播通過的損失值(loss)來評估模型性能,而反向傳播則用于生成對應當前權重參數的梯度。當輸入數據輸入神經網絡時,它會通過網絡逐層向前傳播,直到到達輸出層。將輸出層的輸出與使用損失函數得到的期望輸出對比,并為輸出層中的每個神經元計算一個誤差值。將誤差值后向傳播,直至使每個神經元都有著一個關聯的誤差值,其將大致代表其對原始輸出的貢獻。反向傳播使用這些誤差值來計算對應網絡中權重參數的損失函數梯度。而上述的梯度,被用于更新權重參數,并在其過程中最小化損失函數。
而深度神經網絡模型的訓練,通常采用數據并行的模式,即生成多份模型副本,并將樣本分別輸入上述各模型副本進行訓練。那么,在訓練過程中,則需要將為同一批次樣本在不同模型副本項下生成的梯度進行梯度聚合,以實現該批次處理過程的迭代。目前,深度學習框架通常采用多GPU來加速的。而現有的參數聚合/梯度聚合方法,通常也是被用于多GPU訓練場景的。事實上,一臺典型的機器設備就可能包括多個本地GPU,它們通過PCIe總線或NVLink等其他標準的總線定向地與機器設備的CPU、網卡等網絡設備連接;并且,其中的一些機器設備中,其本地GPU還若干個為一組分屬于機器設備中不同的節點(例如NUMA節點);而一個NUMA節點,通常包括一個屬于自己的CPU,以及內存條等。在生產環境下,為了提高訓練效率,深度神經網絡模型的訓練往往更是部署在多臺如前面所述的機器設備組成的集群上的。
在數據并行訓練模式下,每一次迭代的參數更新(梯度聚合),特別是多機多卡(GPU卡)集群場景下的參數更新(梯度聚合),在現有技術中主要采用如下兩種方式:
一、通過中心化的參數服務器(Parameter Server)承擔了梯度的收集、平均和分發工作,基于上述通信模型的部署方式下,參數服務器的訪問帶寬容易成為瓶頸,嚴重影響多機多GPU集群的可擴展性;
二、去中心化的Ring-Allreduce方式,即一種基于環形拓撲的通信方式;在Ring-AllReduce方法中,通過其中的每個GPU都遞次地向相鄰GPU傳送、收集相應的梯度片段以及同步收集的梯度片段,克服上述方式中參數服務器的通信瓶頸問題,但是在超大規模GPU集群場景下數據通信存在著很大的延時開銷。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳致星科技有限公司,未經深圳致星科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010110959.6/2.html,轉載請聲明來源鉆瓜專利網。





