[發明專利]一種網絡重置方法及基于此的加速分布式訓練方法和系統在審
| 申請號: | 202010055765.0 | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN113138831A | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 張翔宇;張曼妮;李楊;孫軍歡 | 申請(專利權)人: | 深圳致星科技有限公司 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06N20/00;H04L12/06;H04L12/24;H04L29/08 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 何姣 |
| 地址: | 518000 廣東省深圳市南山區粵海街道高新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 重置 方法 基于 加速 分布式 訓練 系統 | ||
本發明提供一種網絡重置方法及基于此的加速分布式訓練方法和系統。其中,首先提供一種分布式訓練過程中訓練數據傳輸網絡重置的方法,通過使所有運行著訓練進程的虛擬節點構成一個邏輯環以及從邏輯環的起始節點起向下游的正向收集全局RDMA網絡配置和從終止節點起向上游的反向同步全局RDMA網絡配置過程,使各節點訓練進程都獲得全局RDMA網絡配置,并根據其重置訓練集群中的訓練數據傳輸網絡為RDMA網絡。在此基礎上,進一步提供一種基于高效通信網絡的加速分布式訓練方法、系統,在分布式訓練過程中重置訓練數據傳輸網絡為RDMA網絡,利用RDMA網絡高效傳輸訓練數據,克服訓練數據傳輸通信瓶頸問題,提升訓練效率。
技術領域
本發明涉及AI模型分布式訓練技術領域;具體地,涉及一種網絡重置方法及基于此的加速分布式訓練方法和系統。
背景技術
近年來,人工智能,特別是深度學習,在圖像識別,語言處理等領域取得重大突破,并且開始廣泛應用于商業活動中。深度學習能夠取得如此重大突破的一個關鍵原因是深度學習在訓練過程中處理了大量樣本,從樣本中學習到樣本之中包含的眾多特征。若是僅使用單臺服務器運行深度學習訓練,那么其處理完大量樣本過程中將耗費大量時間,嚴重影響工作效率。因此,既有必要將訓練擴展到多臺服務中進行,每臺服務器處理不同的樣本,加快樣本處理速度,縮短深度學習訓練時間,這也就是最近興起的分布式訓練。深度學習可以理解為是基于梯度的學習:深度學習訓練過程中處理樣本,經過一系列復雜運算,可以得到深度學習過程中一個至關重要的中間結果梯度。在分布式訓練過程中的關鍵即每臺服務器需要將其計算得到的梯度分享給其他服務器。
由于要保證各節點(例如前面述及的服務器節點)上的梯度等參數的一致性,一個用于分布式訓練的服務器集群,其部署運行環境、啟動訓練過程中都有著大量網絡配置、分布式訓練配置等工作,需要運維人員和算法工程師們手動實施。如此方法配置,是一定會嚴重制約其部署和訓練效率。
容器技術的出現,不僅能夠實現容器集群的快速部署,同時它也是一種輕量化的解決方案,且能夠有效整合和管理著裸機資源。Kubernetes即為一種典型的基于容器技術的用于管理多主機上的容器化的應用。以Kubernetes平臺運行分布式機器學習訓練任務為例,Kubernetes不僅大大簡化深度學習環境部署過程,還能夠實現分布式訓練的快速啟動,最大限度減少運維人員和算法工程師們手動操作,進而提高訓練效率。
不同于在物理服務器集群上部署分布式訓練,在如Kubernetes平臺等的這類容器云平臺部署分布式訓練任務時,通常是先配置分布式訓練任務,再依據其資源需求向平臺申請資源和和為分布式訓練任務中的各子任務創建對應的虛擬節點(即容器或容器組,例如Pod——Kubernetes平臺的最小調度單位,其實質上為包含一個或者多個容器的邏輯主機),以上也即是將分布式訓練任務調度到容器云平臺的過程。此外,為保障訓練過程中各虛擬節點上的子任務間訓練參數等的一致性,還需要為之生成一系列分布式訓練配置;例如,在Kubernetes平臺部署分布式tensorflow任務時,即是通過Pod的環境變量TF_CONFIG實現各Pod上任務訓練參數的一致性的。因為是設置分布式訓練任務在前而用于訓練的容器集群創建在后,所以配置中用于虛擬節點間互聯通信的網絡連接配置,并非虛擬節點實際的網絡地址這樣網絡配置信息,而僅是一個連接訪問服務的字符串;而上述虛擬節點間的通信,實際上是通過上述的連接訪問服務字符串請求容器云平臺提供的連接訪問服務實現的;這其中的虛擬節點間通信,自然也包括后續的訓練過程中的各虛擬節點間的互聯通信。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳致星科技有限公司,未經深圳致星科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010055765.0/2.html,轉載請聲明來源鉆瓜專利網。





