[發明專利]一種基于SMBUS總線的服務器多卡控制系統在審
| 申請號: | 202210149891.1 | 申請日: | 2022-02-18 |
| 公開(公告)號: | CN114564327A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 顧正付;遲春紅;肖義;賀鵬 | 申請(專利權)人: | 上海天數智芯半導體有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07;G06F11/10;G06F1/24 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 王磊 |
| 地址: | 201114 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 smbus 總線 服務器 控制系統 | ||
本發明公開了一種基于SMBUS總線的服務器多卡控制系統,包括一塊服務器主板和若干GPU板卡,服務器主板通過SMBUS總線與各GPU板卡連接,并通過SMBUS總線協議中的ARP功能為每個GPU板卡分配不同的設備地址,SMBUS總線包括SCL、SDA和ALERTN三根信號線,每根信號線均通過上拉電阻與VCC端連接。本發明通過GPU板卡內置的watchdog監測協處理器是否發生異常,在發生異常時通過拉低ALERTN電位來通知服務器主板,不再需要服務器發送輪詢命令查詢GPU板卡是否發生異常,從而減輕了服務器主板的工作量,且本發明硬件結構簡單,只需要SMBUS總線即可實現一個服務器主板對多個GPU板卡的管理。
技術領域
本發明屬于服務器控制領域,具體涉及一種基于SMBUS總線的服務器多卡控制系統。
背景技術
服務器和GPU(graphics processing unit)是近來的熱門話題,相關的服務器廠商在服務器中集成了多種GPU板卡來提高運行速度。GPU溫度過高或者電壓過低經常導致其不能正常工作甚至重新啟動,程序異常也經常會導致GPU中的協處理器不能正常工作。現有的解決辦法主要有如下兩種:一種是通過發送中斷通知host讀取自身信息,另外一種是通過IPMI協議進行板卡協處理器的復位工作。然而,通過發送中斷通知host讀取自身信息需要更多的數據線和協議,方式也只能通過一對一的形式;IPMI協議復雜,在硬件和軟件實現方面都需要更多的人力資源,實現起來比較復雜。
發明內容
本發明針對現有技術中的不足,提供一種基于SMBUS總線的服務器多卡控制系統,采用的技術方案如下:
一種基于SMBUS總線的服務器多卡控制系統,包括一塊服務器主板和若干GPU板卡,所述服務器主板通過SMBUS總線與各GPU板卡連接,服務器主板通過SMBUS總線協議中的ARP功能為每個GPU板卡分配不同的設備地址,所述SMBUS總線包括SCL、SDA和ALERTN三根信號線,每根信號線均通過上拉電阻與VCC端連接;
所述服務器多卡控制系統的控制流程為:
S1、GPU板卡的協處理器出現異常時,GPU板卡中的watchdog由于不能得到刷新而拉低ALERTN信號線的電位;
S2、服務器主板偵測到ALERTN信號線處于低電位后,向各GPU板卡發出符合SMBUS協議的ALERT RESPONSE ADDRESS命令,各GPU板卡收到該命令后返回自身的設備地址,同時將ALERTN信號線恢復為高電位;
S3、服務器主板根據得到的設備地址讀取各GPU板卡的狀態,若某GPU板卡的協處理器處于異常狀態,則向該GPU板卡發送復位信號,該GPU板卡在接到復位信號后進行協處理器的復位,并在復位完成后產生相應的中斷信號;
S4、協處理器經過復位重新運行后,根據中斷信號得知本身發生異常,將ALERTN信號線重新拉低為低電位;
S5、服務器主板偵測到ALERTN信號線處于低電位后,向各GPU板卡重新發出符合SMBUS協議的ALERT RESPONSE ADDRESS命令,各GPU板卡收到該命令后返回自身的設備地址,同時將ALERTN信號線恢復為高電位;
S6、服務器主板根據得到的設備地址再次讀取各GPU板卡的狀態,若無異常則GPU板卡復位完成,否則由S3繼續執行。
進一步地,S3中,若某GPU板卡的協處理器處于異常狀態,則由服務器主板向各GPU板卡發送包含該異常GPU板卡位址數據的復位命令,各GPU板卡接到復位命令后校驗位址數據,若位址數據與自身位址不一致則回復NACK,否則回復ACK并通過寫寄存器進行復位過程,當寄存器寫完畢后產生相應的中斷信號。
進一步地,S3中,若某GPU板卡的協處理器處于異常狀態,則向該GPU板卡發送sideband reset命令,該GPU板卡得到命令后進行協處理器的復位,并在復位完成后產生相應的中斷信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海天數智芯半導體有限公司,未經上海天數智芯半導體有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210149891.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:物理氣相沉積裝置及裝置的降壓方法
- 下一篇:一種自動化轉子生產加工系統





