[發明專利]通信方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202110864228.5 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN115687233A | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 弓靜 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F15/173 | 分類號: | G06F15/173;G06N3/08;H04L41/12;H04L45/02;H04L41/14;H04L41/082 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 李昂;張穎玲 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通信 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本申請提供了一種通信方法、裝置、設備及計算機可讀存儲介質;該方法包括:獲取所述模型訓練系統中多個GPU之間的通信鏈路信息和網絡信息;基于所述通信鏈路信息和網絡信息,確定單次傳輸的目標數據量;控制各個GPU基于所述目標數據量對待傳輸的模型參數進行拆分,得到多個拆分模型參數;控制所述各個GPU發送所述多個拆分模型參數。通過本申請,能夠提高GPU之間的通信效率,從而提高模型訓練效率。
技術領域
本申請涉及人工智能技術,尤其涉及一種方法、裝置、設備及計算機可讀存儲介質。
背景技術
目前深度學習已經成功應用于計算機視覺、模式識別、自然語言處理等多個領域。在進行深度學習模型訓練的時候,一般使用圖形處理器(GPU,Graphics Processing Unit)來進行加速,當訓練樣本只有百萬級別的時候,單卡GPU通常就能滿足訓練需求,但是當訓練樣本量達到上千萬,上億級別之后,單卡訓練耗時很長,這個時候通常需要采用多GPU進行并行訓練。
多GPU并行訓練一個要考慮的問題就是GPU之間的通信性能,因為數據并行模式下,GPU之間需要進行梯度規約。數據并行化(Data parallelism,DP)是應用最為廣泛的并行策略,數據并行化對GPU通信效率要求很高,相關技術中,在多GPU并行訓練中,往往直接調用英偉達多GPU通信庫(NCCL,NVIDIA Collective Communication Library))中的全收集(allgather)函數完成所需要的參數操作,發送性能十分低下,對帶寬的利用也很低。
發明內容
本申請實施例提供一種方法、裝置及計算機可讀存儲介質,能夠提高多GPU間的通信效率,從而提高模型訓練效率。
本申請實施例的技術方案是這樣實現的:
本申請實施例提供一種通信方法,包括:
獲取所述模型訓練系統中多個GPU之間的通信鏈路信息和網絡信息;
基于所述通信鏈路信息和網絡信息,確定單次傳輸的目標數據量;
控制各個GPU基于所述目標數據量對待傳輸的模型參數進行拆分,得到多個拆分模型參數;
控制所述各個GPU發送所述多個拆分模型參數。
本申請實施例提供一種通信裝置,包括:
第一獲取模塊,用于獲取所述模型訓練系統中多個GPU之間的通信鏈路信息和網絡信息;
第一確定模塊,用于基于所述通信鏈路信息和網絡信息,確定單次傳輸的目標數據量;
第一控制模塊,用于控制各個GPU基于所述目標數據量對待傳輸的模型參數進行拆分,得到多個拆分模型參數;
第二控制模塊,用于控制所述各個GPU發送所述多個拆分模型參數。
在一些實施例中,該第一獲取模塊,用于:
確定所述多個GPU之間的通信拓撲結構信息;
獲取所述模型訓練系統中多個GPU之間的環境變量參數,并基于所述環境變量參數確定通信鏈路類型;
獲取流量模型控制字段的字段信息,基于所述字段信息確定流量模型;
確定所述多個GPU之間的實際網絡帶寬。
在一些實施例中,該第一獲取模塊,還用于:
獲取應用層傳輸的所述模型訓練系統中的設備個數、設備列表信息和使用流的數目;
基于所述設備個數、設備列表信息和使用流的數目,確定所述多個GPU之間的通信拓撲結構信息。
在一些實施例中,該第一獲取模塊,還用于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110864228.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:遠光燈關閉提醒方法、系統、介質及裝置
- 下一篇:制冷器具





