[發明專利]一種管理、訓練網分離的分布式訓練網絡系統及通信方法有效
| 申請號: | 201911422399.1 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN113132145B | 公開(公告)日: | 2023-04-11 |
| 發明(設計)人: | 胡水海;孫軍歡 | 申請(專利權)人: | 深圳致星科技有限公司 |
| 主分類號: | H04L41/14 | 分類號: | H04L41/14;H04L49/00;G06N20/00 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 何姣 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 管理 訓練 分離 分布式 網絡 系統 通信 方法 | ||
本發明提供一種管理、訓練網分離的分布式訓練通信網絡系統、方法,通過管理/訓練網絡控制器與工作節點的操作系統耦接,以及將其與管理網絡接口、訓練網絡接口耦接;并通過其使管理網絡、訓練網絡在物理網絡并行傳輸,且在邏輯上隔離地并行傳輸,以便通過進一步的網絡通信管理來解決分布式訓練中管理業務流量與訓練數據傳輸在同一物理網絡并行傳輸時被干擾,甚至是在訓練數據傳輸高峰時完全占據帶寬使管理業務通信暫時性中斷,進而危及訓練集群穩定的問題。
技術領域
本發明涉及人工智能模型訓練以及云計算、數據中心網絡技術領域,具體地,涉及一種管理、訓練網分離的分布式訓練網絡系統及通信方法。
背景技術
得益于算法、數據和硬件計算能力三方面的發展,當前人工智能正處于第三個發展高潮期。算法方面,深度學習概念的提出以及相關算法的開發,大大提高了機器學習的能力,隨后以深度學習、強化學習為代表的算法研究的突破,算法模型持續優化,極大地提升了人工智能應用的準確性(如語音識別和圖像識別等)。數據方面,隨著互聯網的技術進步和普及,全球網絡數據量急劇增加,海量數據為人工智能發展提供了良好的土壤。機器學習任務(簡稱訓練)需要龐大的計算能力和大量數據。硬件算力方面,CPU和GPU芯片計算能力的提升,各種人工智能專用硬件的研發,以及各種開源人工智能訓練平臺的廣泛應用(如TensorFlow和PyTorch等),極大地提升了機器處理人工智能任務的效率。
然而,與此同時,我們也注意到:人工智能的應用正在變得越來越復雜。這表現在:用來訓練算法模型的數據量越來越大,需要的硬件算力越來越多,搭建人工智能訓練平臺的復雜度越來越高,需要同時支持的訓練任務越來越多。
人工智能技術的發展,帶來了新挑戰。例如,人工智能算法在進行分布式模型訓練需要進行參數聚合;其中,參數聚合指的是不同計算節點階段性地同步最新的計算結果;聚合過程中不同計算節點之間需要進行大量的網絡數據傳輸來交換訓練參數;因此,網絡數據傳輸能力對人工智能模型訓練效率有很大的影響。
然而,不同于單機訓練,分布式訓練集群自身的節點管理等諸業務也需要通過跨節點的通信來實現。顯然,前面述及的管理流量,若與本就是訓練過程中通信瓶頸的海量訓練數據傳輸(例如傳遞的參數)并行通信,將會被嚴重干擾,甚至是在訓練數據傳輸高峰時被完全占據帶寬,而是管理流量無法傳輸進而管理業務暫時性中斷,進而影響訓練集群本身的穩定。雖然通過提供兩套的物理網絡分別用于對應業務的通信,可以避免上述的問題。但需要注意的是,提供額外的網絡通信設備,顯然將提高服務器集群的部署成本,更重要的是,兩套并行物理網絡,特別是集群中多數的節點(如工作節點、參數服務器節點等),均同時接入上述兩個網絡時,其網絡配置的難度將被放大。
發明內容
本發明旨在解決在分布式訓練過程中的網絡通信問題,通過提供一種應用于分布式訓練的虛擬網絡模型,解決分布式訓練中節點間(例如工作節點間以及工作節點與其他相關節點間)訓練流量(通常通信數據量巨大)與業務流量并發、并行引發的網絡通信問題。具體而言,本發明將提供一種管理、訓練網分離的分布式訓練網絡系統及通信方法,僅通過一套物理網絡即可實現管理網絡、訓練網絡的分離并行傳輸。
一方面,本發明實施例提供一種管理、訓練網分離的分布式訓練網絡系統。
上述的管理、訓練網分離的分布式訓練網絡系統,包括:
管理網絡和訓練網絡;其中,
管理網絡包括工作節點和管理網虛擬交換機;
訓練網絡包括工作節點和訓練網虛擬交換機;其中,
上述的工作節點,是指分布式訓練過程中用于執行訓練等相關作業的節點;在本發明提供一種管理、訓練網分離的分布式訓練網絡系統中,工作節點為虛擬節點,即利用宿主機(如物理集群中的服務器主機節點)資源虛擬化出的邏輯計算機;
上述的工作節點與管理網虛擬交換機通過它們之間的鏈路相連;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳致星科技有限公司,未經深圳致星科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911422399.1/2.html,轉載請聲明來源鉆瓜專利網。





