[發明專利]一種基于NDN的P2P分布式機器學習訓練系統數據傳輸方法有效
| 申請號: | 202011581614.5 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112579301B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 于珊平;歐陽巧琳;胡晗;安建平 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06N20/20 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 張利萍 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ndn p2p 分布式 機器 學習 訓練 系統 數據傳輸 方法 | ||
本發明涉及一種基于NDN的P2P分布式機器學習訓練系統數據傳輸方法,屬于分布式機器學習領域。本發明方法,將NDN中基于PIT的請求聚合機制、基于CS的網內緩存機制以及“一對多”的內容分發機制應用于P2P架構下的分布式機器學習中,在同步訓練與異步訓練中,能夠滿足減小傳輸冗余數據的需求。本發明方法減小了分布式機器學習訓練系統中的傳輸冗余,從而減小了傳輸時延,提高了網絡傳輸效率。同時,可以支持異步機器學習。在傳輸失敗進行重傳時,可以通過網內緩存實現就近獲取,減少了對服務器端鏈路的占用,降低了傳輸延遲。
技術領域
本發明涉及一種分布式機器學習訓練系統中的數據傳輸方法,尤其涉及一種基于NDN(Named Data Networking,命名數據網絡)的P2P(Peer to Peer,對等網絡)分布式機器學習訓練數據傳輸方法,屬于分布式機器學習領域。
背景技術
分布式機器學習訓練系統,利用多個圖形處理器(Graphics Processing Unit,GPU)進行模型并行訓練,從而加速模型訓練的速度。機器學習訓練的目標是盡可能讓模型預測出的結果與實際的結果接近。在進行訓練時,預測結果與實際結果的差距通過以模型參數為自變量的損失函數表示。
在分布式機器學習訓練系統中,訓練樣本被分為多份,每一份樣本由訓練系統中的一個GPU所持有,訓練會進行多輪直至訓練出的模型的總體損失小于一定值。每一輪訓練包含三個步驟:首先,訓練系統中的每一個GPU使用其持有的樣本中的部分樣本完成一次訓練,獲得該輪對應的參數梯度;然后,GPU之間交換各自計算所得的參數梯度,并對訓練模型進行更新;最后,GPU使用更新后的模型進行下一輪訓練。分布式機器學習訓練包括同步訓練和異步訓練兩種:在同步訓練中,每個GPU收到該輪所有GPU計算的參數梯度后再進行模型更新與下一輪計算;在異步訓練中,每個GPU完成一輪訓練后立即利用該輪訓練開始時收到的參數梯度進行模型更新,并進行下一輪計算。上述分布式訓練過程中需要進行訓練參數梯度的數據交互。
目前,在采用P2P(Peer to Peer,對等網絡)架構進行數據交互的分布式機器學習訓練系統中,若每個GPU與其它所有GPU分別建立連接來參數梯度,則每個同樣內容的參數梯度需要重復傳輸N-1次(N為GPU的個數)以傳送給其余所有GPU,這種重復的數據傳輸過程存在大量冗余。為了減小參數梯度的重復傳輸,目前常用的參數梯度的傳輸方法為環形全局規約法(RingAllReduce),該方法下所有GPU計算完成后,在GPU間環形傳輸分塊化的參數梯度從而將最新的參數梯度傳遞給所有GPU。該方法大幅減少了傳輸冗余,參數梯度的傳輸次數和GPU的數量呈線性關系。但是,目前的環形全局規約方法存在著在所有GPU計算完成后才能進行參數梯度傳遞的限制,即其只能在同步訓練系統中使用。
發明內容
本發明的目的是為了解決在P2P架構下的分布式機器學習訓練系統存在的參數梯度冗余傳輸的技術問題,創造性地提出一種基于NDN的P2P分布式機器學習訓練系統數據傳輸方法。
本發明的創新點在于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011581614.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種復合式空氣熱泵
- 下一篇:一種清咽止嗽散及其制備工藝和使用方法





