[發(fā)明專利]一種RDMA通信加速集合通信的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110874526.2 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113553279B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計)人: | 譚光明;馬瀟瀟;朱泓睿;王展;元國軍;安學軍 | 申請(專利權(quán))人: | 中科計算技術(shù)西部研究院 |
| 主分類號: | G06F13/28 | 分類號: | G06F13/28;G06F9/445 |
| 代理公司: | 重慶強大凱創(chuàng)專利代理事務所(普通合伙) 50217 | 代理人: | 黃書凱 |
| 地址: | 401120 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 rdma 通信 加速 集合 方法 系統(tǒng) | ||
本發(fā)明涉及通信技術(shù)領(lǐng)域,具體為一種RDMA通信加速集合通信的方法及系統(tǒng),其方法包括:S3,網(wǎng)絡(luò)設(shè)備獲取WR或網(wǎng)絡(luò)配置包的通信元數(shù)據(jù),判斷WR或網(wǎng)絡(luò)配置包是否為集合通信卸載通信,若是,則執(zhí)行步驟S4;S4,網(wǎng)絡(luò)設(shè)備獲取網(wǎng)絡(luò)數(shù)據(jù),在網(wǎng)絡(luò)設(shè)備上采用細粒度的緩沖區(qū)管理機制進行集合通信的卸載任務處理;S6,若本次任務完成、應用下發(fā)查詢請求或任務出現(xiàn)異常,則網(wǎng)絡(luò)設(shè)備將WR或網(wǎng)絡(luò)配置包對應的CQE反饋給主機或應用。本方案能高效、易用進行RDMA通信加速集合通信,以解決現(xiàn)有集合通信卸載效率低的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及通信技術(shù)領(lǐng)域,具體為一種RDMA通信加速集合通信的方法及系統(tǒng)。
背景技術(shù)
遠程數(shù)據(jù)直接訪問(Remote?Direct?Memory?Access,RDMA)技術(shù)是進行高性能網(wǎng)絡(luò)通信的重要數(shù)據(jù)訪問模式,使用RDMA進行數(shù)據(jù)通信可以旁路主機操作系統(tǒng),減少數(shù)據(jù)拷貝,達到高帶寬、低時延的高性能網(wǎng)絡(luò)通信效果。RDMA廣泛應用于商業(yè)數(shù)據(jù)中心和高性能計算機集群中,而集合通信是分布式集群通信中常用的通信模式。
集合通信,這種數(shù)據(jù)通信模式涉及到多個通信節(jié)點之間的數(shù)據(jù)收發(fā),往往涉及到數(shù)據(jù)由多個計算節(jié)點匯集到一個計算節(jié)點的通信過程,如規(guī)約(Reduce)、全局規(guī)約(Allreduce)、收集(Gather)、全局收集(Allgather)等操作。在數(shù)據(jù)匯集的過程中會造成網(wǎng)絡(luò)中數(shù)據(jù)量急劇增加,導致中間匯集節(jié)點和根節(jié)點成為通信熱點和通信瓶頸,其次主機端進行數(shù)據(jù)的規(guī)約計算時則會消耗一部分主機端寶貴的計算資源。
因此,通過在RDMA通信設(shè)備上進行集合通信的卸載,在數(shù)據(jù)經(jīng)過通信設(shè)備的時候?qū)?shù)據(jù)進行計算,一方面可以充分旁路主機操作系統(tǒng),減少主機通信以及計算的開銷;另一方面可以減少數(shù)據(jù)拷貝,并且減少網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)量,達到提高集合通信性能的效果。目前,網(wǎng)絡(luò)設(shè)備廠商在網(wǎng)卡或者交換機上開辟一部分用于集合通信加速的數(shù)據(jù)緩沖區(qū)和計算單元,來進行集合通信的數(shù)據(jù)緩存和數(shù)據(jù)計算,同時提供了配套的軟件和協(xié)議,如Core-Direct、SHArP等。
但是,目前的RDMA網(wǎng)絡(luò)設(shè)備集合通信加速方案中,在設(shè)計架構(gòu)上采用簡單的緩沖區(qū)來進行數(shù)據(jù)緩存管理,以消息粒度進行數(shù)據(jù)傳輸完成情況的反饋,通過上層單獨的中間層軟件進行集合通信卸載的管理,這樣的技術(shù)方案在實際應用中并不能滿足實際的集合通信需求,會存在下列問題:
(1)當數(shù)據(jù)通信過程中通信的消息較大時,在消息層面進行數(shù)據(jù)傳輸情況的反饋,會導致緩沖區(qū)占用時間過長,嚴重影響緩沖區(qū)的使用效率;
(2)粗粒度的緩沖區(qū)管理,在數(shù)據(jù)流水處理上缺乏高效性,無法進行高效率的集合通信加速;
(3)通過中間層軟件進行集合通信卸載的管理和調(diào)用,導致用戶無法直接進行通信設(shè)備硬件的感知,以致無法充分利用硬件設(shè)備的卸載特性,需要硬件向用戶提供集合通信卸載專用的通信原語和調(diào)用接口。
特別是在分布式深度學習應用和高性能應用中,存在大量的集合通信操作,如:分布式深度學習訓練,需要進行大量的參數(shù)更新,對底層通信而言需要進行多次大數(shù)據(jù)量的Allreduce(典型的相對復雜的集合通信之一)操作,而高性能計算中需要調(diào)用大量的消息傳遞接口(Message?Passing?Interface,MPI)和集合通信接口,以上的集合通信會顯著影響應用的整體性能,因此,現(xiàn)在急需一種RDMA通信加速集合通信的方法及系統(tǒng),以解決現(xiàn)有集合通信存在問題。
發(fā)明內(nèi)容
本發(fā)明的目的之一在于提供一種高效、易用的RDMA通信加速集合通信的方法,以解決現(xiàn)有集合通信卸載效率低的問題。
本發(fā)明提供的基礎(chǔ)方案一:一種RDMA通信加速集合通信的方法,包括如下步驟:
S3,網(wǎng)絡(luò)設(shè)備獲取WR或網(wǎng)絡(luò)配置包的通信元數(shù)據(jù),判斷WR或網(wǎng)絡(luò)配置包是否為集合通信卸載通信,若是,則執(zhí)行步驟S4;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科計算技術(shù)西部研究院,未經(jīng)中科計算技術(shù)西部研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110874526.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 通信裝置、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信方法、通信電路、通信系統(tǒng)
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信終端、通信系統(tǒng)、通信方法以及通信程序
- 通信終端、通信方法、通信裝備和通信系統(tǒng)
- 通信裝置、通信程序、通信方法以及通信系統(tǒng)
- 通信裝置、通信系統(tǒng)、通信方法及計算機可讀取的記錄介質(zhì)





