[發明專利]一種AI服務器計算單元架構及實現方法有效
| 申請號: | 202010476077.1 | 申請日: | 2020-05-29 |
| 公開(公告)號: | CN111737184B | 公開(公告)日: | 2022-08-12 |
| 發明(設計)人: | 孫瓏玲;于泉泉;王鵬;王煥超;劉聞禹;閆玉婕 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F15/16 | 分類號: | G06F15/16;G06F13/42;G06F15/173 |
| 代理公司: | 濟南舜源專利事務所有限公司 37205 | 代理人: | 孫玉營 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 ai 服務器 計算 單元 架構 實現 方法 | ||
本發明提供一種AI服務器計算單元架構及實現方法,所述架構包括功耗獲取模塊、控制模塊、第一PCIe Switch芯片和第二PCIe Switch芯片;控制模塊分別與第一PCIe Switch芯片和第二PCIe Switch芯片進行通信連接;功耗獲取模塊,用于獲取CPU、GPU的功耗數據;控制模塊,用于從功耗獲取模塊獲取CPU、GPU的功耗數據并對功耗數據進行分析處理并根據對功耗數據的處理結果向PCIe Switch芯片發送控制指令包,控制PCIe Switch芯片端口的開關設置和上下行屬性設置實現GPU參與計算的個數的調整及GPU通過PCIe Switch芯片與CPU互聯關系的調整。
技術領域
本發明涉及服務器計算單元架構設計技術領域,具體涉及一種AI服務器計算單元架構及實現方法。
背景技術
為滿足大數據、云計算、人工智能等領域各種數據的收集與整理,采用各種異構形式的AI服務器得到了廣泛應用。計算單元的大量應用滿足了服務器進行密集型數據運算的能力。
CPU+GPU為AI服務器中普遍使用的計算單元組合。NVIDIA針對CPU+GPU的互聯形式推出了三種基礎PCIe拓撲——平衡模式(Balance Mode)、通用模式(Common Mode)和級聯模式(Cascade Mode)。多數應用場景中平衡模式與通用模式兩種模式下的運算能力相近,單依據應用場景無法對拓撲模型進行更優選擇;不同模式下GPU的P2P性能有不同,對CPU的資源利用程度也有差異,CPU和GPU對計算資源的利用率可通過功耗大小體現,功耗越大,所需散熱條件越高。明顯地,不同應用場景對計算單元的實際需求有所差異,受空間和操作的局限,在一臺服務器中往往不支持同時進行多種計算單元架構設計。針對不同的應用場景,設計可自動靈活調節的計算單元架構模式,對優化整機計算資源配置和功耗調優設計具有重要意義。
在目前的AI服務器設計中,對于計算單元的架構設計,主要有以下方案:(1)一臺服務器提供一種計算單元架構;(2)通過手動拔插線纜/功能切換板卡,實現部件互聯模式的切換;(3)利用PCIe Switch平行和交叉兩種互通模式,人為選擇實現CPU-GPU互聯拓撲的整體切換。
現有技術方案的缺點主要有:(1)一臺服務器提供一種計算單元架構:架構設計單一,服務器適用的應用場景靈活性差。(2)通過手動拔插線纜/功能切換板卡,實現部件互聯模式的切換:開箱手動切換,耗時耗力,無法實現計算單元架構的自動切換控制。(3)利用PCIe Switch平行和交叉兩種互通模式,人為選擇實現CPU-GPU互聯拓撲的整體切換:無法依據服務器實時工作狀態實現自動切換;計算單元互聯拓撲切換模塊線路設計復雜,影響高速信號質量,延遲GPU與GPU、GPU與CPU的運算交互;拓撲切換類型少,切換局限性大;互聯拓撲的整體切換對于參與計算的計算單元個數無法靈活調整。
發明內容
針對架構設計單一導致服務器適用的應用場景靈活性差;計算單元互聯拓撲切換模塊線路設計復雜影響高速信號質量;拓撲切換類型少導致切換局限性大從而使互聯拓撲的整體切換對于參與計算的計算單元個數無法靈活調整的問題,本發明提供一種AI服務器計算單元架構及實現方法。
本發明的技術方案是:
一方面,本發明技術方案提供一種AI服務器計算單元架構,包括功耗獲取模塊、控制模塊、PCIe Switch芯片;PCIe Switch芯片包括第一PCIe Switch芯片和第二PCIeSwitch芯片;
控制模塊分別與第一PCIe Switch芯片和第二PCIe Switch芯片進行通信連接;
第一PCIe Switch芯片連接有第一CPU;第一CPU連接有第二CPU;第一PCIe Switch芯片和第二PCIe Switch芯片分別連接有若干個GPU;
第一PCIe Switch芯片和第二PCIe Switch芯片連接;第二PCIe Switch芯片與第一CPU連接;第二PCIe Switch芯片與第二CPU連接;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010476077.1/2.html,轉載請聲明來源鉆瓜專利網。





