[發明專利]一種服務器集群及其深度學習的集合通信系統和方法在審
| 申請號: | 202110866054.6 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113900793A | 公開(公告)日: | 2022-01-07 |
| 發明(設計)人: | 陳堯;趙謙謙;郭雷;闞宏偉 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 楊威 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 服務器 集群 及其 深度 學習 集合 通信 系統 方法 | ||
本申請公開了一種深度學習的集合通信方法,應用于環形通信連接的N個FPGA中的任一FPGA中,N為不小于2的正整數,包括:從與自身連接的各個GPU中讀取待處理數據塊,并對各個待處理數據塊進行歸約操作,得到歸約操作結果;基于自身得到的歸約操作結果以及其他各個FPGA得到的歸約操作結果,按照環形全局歸約算法,得到全局歸約結果;將全局歸約結果分發至與自身連接的各個GPU中。應用本申請的方案,可以有效地對深度學習的集合通信進行加速。本申請還提供了一種服務器及其深度學習的集合通信系統,具有相應技術效果。
技術領域
本發明涉及計算機技術領域,特別是涉及一種服務器集群及其深度學習的集合通信系統和方法。
背景技術
深度學習的模型訓練計算量非常大,目前廣泛采用GPU(Graphics ProcessingUnit,圖形處理器)進行加速訓練。當模型規模大到單卡內存無法存放,或者計算耗時長到單卡處理無法忍受時,就需要使用單機多卡,甚至是多機多卡來進行加速模型的訓練。此時,多個GPU之間高度依賴一種被稱為All Reduce的集合通信操作,即全局歸約操作。
集合通信是指多個通信單元按照某種固定的模式同時發送和接收數據,以此來完成特定數據交換的一種通信方式。在并行計算的應用中,大部分通信任務都可以歸納為若干種集合通信操作。其中的All Reduce集合通信操作可以參閱圖1,例如在執行All Reduce之前,GPU0至GPU3上分別具有一組數據,標示為A至D,則在執行All Reduce之后,每個GPU上都有A+B+C+D,也就是將執行All Reduce之前的每個GPU上的數據的對應元素相加。當然,除了相加之外,其他場合中也可以有其他的具體運算類型,例如相乘。
隨著利用GPU加速深度學習模型訓練的不斷發展,Ring-All Reduce算法得到了廣泛的應用,這一算法是采用環形拓撲連接多個GPU,將數據切分為小塊并在環內循環傳遞。具體的通信過程可參閱圖2,整個通信過程可以視為圖2左側的一個Reduce-Scatter操作,以及圖2右側的一個All Gather操作。這樣的優點是當通信的數據量足夠大時,可以充分利用每條鏈路的發送和接收帶寬。
但是,按照圖2的方式實現All Reduce時,會占用GPU較多的計算資源,進而對GPU執行深度學習模型訓練的其他計算任務造成影響。
綜上所述,如何有效地對深度學習的集合通信進行加速,是目前本領域技術人員急需解決的技術問題。
發明內容
本發明的目的是提供一種服務器集群及其深度學習的集合通信系統和方法,以有效地對深度學習的集合通信進行加速。
為解決上述技術問題,本發明提供如下技術方案:
一種深度學習的集合通信方法,應用于環形通信連接的N個FPGA中的任一FPGA中,N為不小于2的正整數,包括:
從與自身連接的各個GPU中讀取待處理數據塊,并對各個所述待處理數據塊進行歸約操作,得到歸約操作結果;
基于自身得到的所述歸約操作結果以及其他各個FPGA得到的歸約操作結果,按照環形全局歸約算法,得到全局歸約結果;
將所述全局歸約結果分發至與自身連接的各個GPU中。
優選的,每一個FPGA均與相同數量的GPU連接。
優選的,按照機內通信耗時和機外通信耗時平衡的原則,確定出與各個 FPGA連接的GPU數量。
優選的,所述按照機內通信耗時和機外通信耗時平衡的原則,確定出與各個FPGA連接的GPU數量,包括:
確定出使得最小的數值G,并將確定出的所述數值G作為確定出的與各個FPGA連接的GPU數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110866054.6/2.html,轉載請聲明來源鉆瓜專利網。





