[發明專利]用于多處理單元互連加速器系統的拓撲和算法在審
| 申請號: | 202210181586.0 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN115129655A | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 韓亮 | 申請(專利權)人: | 平頭哥(上海)半導體技術有限公司 |
| 主分類號: | G06F15/173 | 分類號: | G06F15/173 |
| 代理公司: | 北京合智同創知識產權代理有限公司 11545 | 代理人: | 李杰;楊雷 |
| 地址: | 201208 上海市浦東新區中國(上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 處理 單元 互連 加速器 系統 拓撲 算法 | ||
本申請提供一種加速器系統,包括基于八個處理單元的一個或多個簇?;诎藗€處理單元的每個簇可以被組織成基于四個處理單元的兩個分組。輸入數據可以被劃分為基于四組數據的一個或多個群組。每個處理單元可以被配置為將在兩個雙向通信鏈路上從同一分組中的其他處理單元接收到的對應各分組輸入數據與相應處理單元的輸入數據進行求和,生成相應一組中間數據。每個處理單元可以被配置為將在一雙向通信鏈路上從另一分組中的對應處理單元接收到的對應一組中間數據與相應處理單元的中間數據進行求和,生成相應的數據和。每個處理單元可以被配置為在相應各組兩個雙向通信鏈路上向同一分組中的其他處理單元廣播相應處理單元的數據和。
背景技術
當前的用于深度神經網絡的并行/分布式訓練方法包括在許多分布式計算節點上應用大量的同步小批量隨機梯度下降(SDG)過程以探索基于數據并行的加速。參考圖1,示出了用于在CPU主機上運行的包括偽代碼的示例性小批量SDG過程。該過程受到阻礙整個并行加速過程的同步處理器件的影響。如圖2所示,為了減少阻礙,需要建立加速器側網絡的帶寬和/或降低主機加速器通信的頻率。
目前已存在一些用于同步小批量SDG過程的算法。一些常見的計算節點間通信模式函數是Reduce函數和All_Reduce函數?,F參考圖3,其示出了Reduce函數。在Reduce函數中,多個節點310-340中的每個節點的一組值被傳遞到多個節點310-340中的給定節點310,給定節點310將各個值加在一起。一組值的總和由給定節點310存儲。例如,第一節點310將從多個節點310-340接收到的值5、2、7和4加在一起,并且第一節點310存儲得到的總和18。第一節點310還將值1、3、8和2加在一起并存儲得到的總和14?,F參考圖4,示出了All-Reduction函數。在All_Reduce函數中,多個節點410-440中的每個節點的一組值被傳遞到多個節點410-440中的給定節點410,給定節點410將各個值加在一起。一組總和值由給定節點410廣播到多個節點410-440,并且多個節點410-440存儲該總和值集合。例如,第一節點410將從多個節點410-440接收到的值5、2、7和4加在一起。第一節點410還將值1、3、8和2加在一起。第一節點410向多個節點410-440廣播一組總和值18和14,每個節點410-440存儲一組總和值。如圖所示,Reduce函數和All_Reduce函數同時應用于一批變量。
雖然Reduce函數和All_Reduce函數的直接拓撲實施方式是基于樹的實施方式,但是基于環的實施方式能夠實現更高的帶寬利用率和效率?,F參考圖5,其示出了分布式計算系統上傳統的基于環的All_Reduce實施方式。在All_Reduce函數中,分布式計算系統的N個節點中的每個節點與其兩個對等節點通信2*(N-1)次。在通信期間,節點發送和接收一組值。在第一個N-1次迭代中,接收到的值加到相應節點的緩沖區中的值。在第二個N-1次迭代中,接收到的值替換相應節點的緩沖區中保存的值。例如,圖5示出了三個節點(N=3)510,每個節點緩沖相應一組輸入值。在第一次迭代520中,第一節點將第一組輸入值傳遞到第二節點。第二節點將從第一節點接收到的一組輸入值與第二節點保存的對應輸入值相加。第一節點還從第三節點接收第三組輸入值。第一節點將從第三節點接收到的一組輸入值與第一節點保存的對應值相加。第二節點和第三節點還在第一次迭代520中傳遞和相加對應各組的輸入值。在第二次迭代530中,第一節點將第三組輸入值傳遞給第二節點,第二節點將第三組輸入值與第二節點存儲的對應值相加。第一節點還從第三節點接收第二組值,第一節點將第二組值與第一節點保存的對應值相加。在第二次迭代530中,第二節點和第三節點再次傳遞和相加對應各組值。在第三次迭代540中,第一節點將第二組總和值傳遞到第二節點,第二節點存儲第二組總和值。第一節點還從第三節點接收第一組總和值,第一節點存儲第一組總和值。第二節點和第三節點還傳遞和存儲對應各組總和值。在第四次迭代550中,第一節點將第一組總和值傳遞到第二節點,第二節點存儲第一組總和值。第一節點還從第三節點接收第三組總和值,第一節點存儲該第三組總和值。第二節點和第三節點還傳遞和存儲對應各組總和值。在第四次迭代之后,每個節點都有一組總和值。如果緩沖區足夠大,則圖5所示的基于環的All_Reduce函數能夠優選地利用分布式計算系統的可用網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平頭哥(上海)半導體技術有限公司,未經平頭哥(上海)半導體技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210181586.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:燃燒裝置
- 下一篇:核中的存儲器帶寬控制





