[發明專利]服務器專用的GPU故障保護裝置、方法、設備及介質在審
| 申請號: | 202010176196.5 | 申請日: | 2020-03-13 |
| 公開(公告)號: | CN111400136A | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 李昌嵩 | 申請(專利權)人: | 浪潮商用機器有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F11/32;G06F11/14 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 巴翠昆 |
| 地址: | 250100 山東省濟南市歷城區唐冶新*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 服務器 專用 gpu 故障 保護裝置 方法 設備 介質 | ||
1.一種服務器專用的GPU故障保護裝置,其特征在于,包括:監控管理模塊,分別與所述監控管理模塊電性連接的CPLD模塊和具有多個不同的配置電阻的可控開關電路,以及與所述可控開關電路電性連接的電源模塊;其中,
所述監控管理模塊,用于接收GPU的在位信號,當檢測到某個GPU發生故障時,將故障信息發送至所述CPLD模塊的寄存器,并控制服務器關機并重啟,還用于向所述可控開關電路發送相應的開關控制信號;
所述CPLD模塊,用于在讀取到自身寄存器中的信息后,在所述服務器重啟時,控制各個模塊相關的上電時序,以阻止故障GPU的上電;
所述可控開關電路,用于根據接收的所述開關控制信號,通過不同的配置電阻來配置OCP的設置參數;
所述電源模塊,用于根據配置的所述OCP的設置參數,向對應的GPU供電。
2.根據權利要求1所述的服務器專用的GPU故障保護裝置,其特征在于,所述監控管理模塊,具體用于在檢測到GPU在位數量減少后,向所述可控開關電路發送相應的開關控制信號以改變OCP的設置參數,同時熄滅故障GPU的在位指示燈,以通知工程師故障GPU的位置。
3.根據權利要求2所述的服務器專用的GPU故障保護裝置,其特征在于,還包括:與所述監控管理模塊電性連接的Flash芯片;
所述監控管理模塊,具體還用于將所述故障信息記錄到Flash芯片的寄存器中;
所述Flash芯片,用于存儲所述故障信息。
4.根據權利要求4所述的服務器專用的GPU故障保護裝置,其特征在于,所述Flash芯片通過SPI信號與所述監控管理模塊通信。
5.根據權利要求1所述的服務器專用的GPU故障保護裝置,其特征在于,所述CPLD模塊通過I2C與所述監控管理模塊通信。
6.一種服務器專用的GPU故障保護方法,其特征在于,包括:
監控管理模塊接收GPU的在位信號,當檢測到某個GPU發生故障時,將故障信息發送至CPLD模塊的寄存器,并控制服務器關機并重啟;
所述CPLD模塊在讀取到自身寄存器中的信息后,在所述服務器重啟時,控制各個模塊相關的上電時序,以阻止故障GPU的上電;
所述監控管理模塊向可控開關電路發送相應的開關控制信號;
所述可控開關電路根據接收的所述開關控制信號,通過不同的配置電阻來配置OCP的設置參數;
電源模塊根據配置的所述OCP的設置參數,向對應的GPU供電。
7.根據權利要求6所述的服務器專用的GPU故障保護方法,其特征在于,所述監控管理模塊向可控開關電路發送相應的開關控制信號,包括:
所述監控管理模塊在檢測到GPU在位數量減少后,向所述可控開關電路發送相應的開關控制信號以改變OCP的設置參數,同時熄滅故障GPU的在位指示燈,以通知工程師故障GPU的位置。
8.根據權利要求7所述的服務器專用的GPU故障保護方法,其特征在于,在所述將故障信息發送至CPLD模塊的寄存器之前,還包括:
所述監控管理模塊將所述故障信息記錄到Flash芯片的寄存器中;
所述Flash芯片存儲所述故障信息。
9.一種服務器專用的GPU故障保護設備,其特征在于,包括處理器和存儲器,其中,所述處理器執行所述存儲器中保存的計算機程序時實現如權利要求6至8任一項所述的服務器專用的GPU故障保護方法。
10.一種計算機可讀存儲介質,其特征在于,用于存儲計算機程序,其中,所述計算機程序被處理器執行時實現如權利要求6至8任一項所述的服務器專用的GPU故障保護方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮商用機器有限公司,未經浪潮商用機器有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010176196.5/1.html,轉載請聲明來源鉆瓜專利網。





