[發明專利]一種服務器PCIe設備故障記錄的系統及方法在審
| 申請號: | 201811434099.0 | 申請日: | 2018-11-28 |
| 公開(公告)號: | CN109542752A | 公開(公告)日: | 2019-03-29 |
| 發明(設計)人: | 孫一心 | 申請(專利權)人: | 鄭州云海信息技術有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 濟南誠智商標專利事務所有限公司 37105 | 代理人: | 王汝銀 |
| 地址: | 450018 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 故障記錄 黑盒 故障位置信息 寄存器 服務器 配置空間寄存器 寄存器讀取 日志保留 信息漏失 觸發 日志 分析 中斷 監控 檢測 記錄 | ||
本發明提出了一種服務器PCIe設備故障記錄的系統及方法,包括,當BIOS單元監控到PCIe設備發生UCE故障時,會觸發UCE中斷,BIOS單元判斷故障的位置,將PCIe設備配置空間寄存器中的AER capability寄存器讀取出來,并將所述AER capability寄存器的值以及故障位置信息通過impi命令發送給BMC;BMC接收所述AER capability寄存器的值以及故障位置信息,并將所述AER capability寄存器的值以及故障位置信息記錄到黑盒日志中。黑盒日志保留有用的信息用于分析定位,同時在黑盒內運行其故障,以判斷故障的破壞程度。采用本發明的故障記錄方法,故障記錄詳細,而且有利于故障的進一步分析,不會導致信息漏失,同時黑盒可以檢測故障的破壞程度。
技術領域
本發明涉及服務器PCIe設備故障領域,具體提供了一種服務器PCIe設備故障記錄的系統及方法。
背景技術
PCIe設備是服務器最常見的外設接口之一,大量的部件包括網卡、Raid卡、FPGA卡、GPU卡、NVME硬盤等等都是通過PCIe接口作為外設設備應用在服務器系統當中。當前PCIe設備已經經歷了Gen1、Gen2、Gen3三代接口,Gen4也即將大量量產應用。目前最常見的設備是應用PCIe Gen3接口,接口速率高達8Gb/s,接口速率快,對系統兼容性和穩定性要求很高。如何保證PCIe設備在服務器系統中的穩定性和可用性是服務器系統設計的難點之一。PCIe設備在系統中的故障包括uncorrectable fatal error、correctable non-fatalerror和correctable error三類。當發生correctable non-fatal error和correctableerror時,服務器系統往往有性能降低等現象,而且在某些場景下,這兩類錯誤和uncorrectable fatal error是有聯系的;當出現uncorrectable fatal error時,服務器系統往往會發生宕機和重啟等現象,驗證影響線上業務的運行。
除了在設計中follow各種spec之外,能快速定位PCIe設備的故障原因也很重要。PCIe設備的配置空間中包含多個capability,其中AER(advanced error reporting)這個capability中的uncorrectable error status register、correctable error statusregister、header log register等非常重要,往往可以直接指明PCIe報錯的原因。可以在出現問題的時候通過帶外IPMI命令直接讀取到上述寄存器,但是同樣可以通過服務器系統中的BMC黑盒日志進行記錄,當發生故障時,直接調取BMC的黑盒日志進行debug處理。目前在黑盒日志中往往只是記錄某一個地址的PCIe設備發生了故障,并記錄大概的故障類型,如uncorrectable fatal error、correctable non-fatal error和correctable error等,不會對故障現象進行具體的記錄。故障記錄過于籠統,而且不利于故障的進一步分析,容易導致信息漏失。
發明內容
針對以上缺點,本發明提出了一種服務器PCIe設備故障記錄的系統及方法,一種服務器PCIe設備故障記錄的系統,包括:
CPU單元:用于存儲PCIe設備配置空間寄存器;
BIOS單元:用于當BIOS單元監控到PCIe設備發生UCE故障時,收集故障PCIe設備的寄存器的值和故障信息;所述寄存器的值和故障信息位于所述空間寄存器的AERcapability中;
BMC單元:用于通過impi命令接收從BIOS單元發送的寄存器的值和故障位置信息;同時將寄存器的值和故障位置信息記錄到黑盒日志中;
黑盒日志:用于記錄寄存器的值和故障位置信息,并根據所述寄存器的值對寄存器進行解析;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州云海信息技術有限公司,未經鄭州云海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811434099.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分布式日志系統
- 下一篇:軟件集成測試方法及平臺





