[發(fā)明專利]一種服務(wù)器PCIe設(shè)備故障記錄的系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 201811434099.0 | 申請日: | 2018-11-28 |
| 公開(公告)號: | CN109542752A | 公開(公告)日: | 2019-03-29 |
| 發(fā)明(設(shè)計(jì))人: | 孫一心 | 申請(專利權(quán))人: | 鄭州云海信息技術(shù)有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 濟(jì)南誠智商標(biāo)專利事務(wù)所有限公司 37105 | 代理人: | 王汝銀 |
| 地址: | 450018 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 故障記錄 黑盒 故障位置信息 寄存器 服務(wù)器 配置空間寄存器 寄存器讀取 日志保留 信息漏失 觸發(fā) 日志 分析 中斷 監(jiān)控 檢測 記錄 | ||
1.一種服務(wù)器PCIe設(shè)備故障記錄的系統(tǒng),其特征在于,包括:
CPU單元:用于存儲PCIe設(shè)備配置空間寄存器;
BIOS單元:用于當(dāng)BIOS單元監(jiān)控到PCIe設(shè)備發(fā)生UCE故障時(shí),收集故障PCIe設(shè)備的寄存器的值和故障信息;所述寄存器的值和故障信息位于CPU單元空間寄存器中的AERcapability中;
BMC單元:用于通過impi命令接收從BIOS單元發(fā)送的寄存器的值和故障位置信息;同時(shí)將寄存器的值和故障位置信息記錄到黑盒日志中;
黑盒日志:用于記錄寄存器的值和故障位置信息,并根據(jù)所述寄存器的值對寄存器進(jìn)行解析;
所述BIOS單元通過PECI鏈路與CPU單元數(shù)據(jù)通信;所述BMC單元通過KCS鏈路與BIOS單元數(shù)據(jù)通信。
2.根據(jù)權(quán)利要求1所述的一種服務(wù)器PCIe設(shè)備故障記錄的系統(tǒng),其特征在于,所述故障PCIe設(shè)備的寄存器包括uncorrectable error status register、correctable errorstatus register和header log register。
3.根據(jù)權(quán)利要求1所述的一種服務(wù)器PCIe設(shè)備故障記錄的系統(tǒng),其特征在于,所述故障信息的類型包括uncorrectable fatal error、correctable non-fatal error和correctable error。
4.根據(jù)權(quán)利要求1所述的一種服務(wù)器PCIe設(shè)備故障記錄的系統(tǒng),其特征在于,所述BIOS單元包括監(jiān)測單元和收集單元;
所述監(jiān)測單元用于檢測PCIe設(shè)備是否發(fā)生UCE故障;
所述收集單元用于收集故障PCIe設(shè)備的寄存器的值和故障信息。
5.根據(jù)權(quán)利要求1所述的一種服務(wù)器PCIe設(shè)備故障記錄的系統(tǒng),其特征在于,所述BMC單元包括接收模塊和寫入模塊;
所述接收模塊用于通過impi命令接收從BIOS單元發(fā)送的寄存器的值和故障位置信息;所述寫入模塊用于將寄存器的值和故障位置信息記錄到黑盒日志中。
6.一種服務(wù)器PCIe設(shè)備故障記錄的方法,是基于權(quán)利要求1至5任意一項(xiàng)所述的一種服務(wù)器PCIe設(shè)備故障記錄的系統(tǒng)實(shí)現(xiàn)的,其特征在于,包括以下步驟:
S1:當(dāng)BIOS單元監(jiān)控到PCIe設(shè)備發(fā)生UCE故障時(shí),將PCIe設(shè)備配置空間寄存器中的AERcapability寄存器收集出來,并將所述AER capability寄存器的值以及故障位置信息通過impi命令發(fā)送給BMC;
S2:BMC單元接收所述AER capability寄存器的值以及故障位置信息,并將所述AERcapability寄存器的值以及故障位置信息記錄到黑盒日志中。
7.根據(jù)權(quán)利要求6所述的一種服務(wù)器PCIe設(shè)備故障記錄的方法,其特征在于,在執(zhí)行步驟S1之前,還包括當(dāng)PCIe設(shè)備發(fā)生UCE故障時(shí),會(huì)觸發(fā)UCE中斷,BIOS單元判斷故障的位置。
8.根據(jù)權(quán)利要求7所述的一種服務(wù)器PCIe設(shè)備故障記錄的方法,其特征在于,所述BIOS單元判斷故障的位置的方法為當(dāng)PCIe鏈路上出現(xiàn)UCE錯(cuò)誤,系統(tǒng)通過NMI中斷的方式發(fā)送Error Message給Root,通知Root發(fā)生了System Error;所述NMI中斷中包括PCIE故障的位置信息,所述BIOS接收到所述NMI中斷后,通過NMI中斷向量得出故障位置信息。
9.根據(jù)權(quán)利要求6所述的一種服務(wù)器PCIe設(shè)備故障記錄的方法,其特征在于,在步驟S1中,所述當(dāng)BIOS單元監(jiān)控到PCIe設(shè)備發(fā)生UCE故障時(shí),將PCIe設(shè)備配置空間寄存器中的AERcapability寄存器收集出來的方法為,在intel的EDS文檔中指明了所述PCIe設(shè)備配置空間寄存器的地址,BIOS通過訪問所述PCIe設(shè)備配置空間寄存器的地址讀取在CPU單元的PCIe設(shè)備配置空間寄存器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鄭州云海信息技術(shù)有限公司,未經(jīng)鄭州云海信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811434099.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:分布式日志系統(tǒng)
- 下一篇:軟件集成測試方法及平臺
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測;錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過測試作故障硬件的檢測或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯(cuò)誤檢測、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測試或調(diào)試防止錯(cuò)誤
- 故障記錄部件校正參數(shù)的選擇表、確定方法及裝置和圖像形成裝置
- 一種鐵路通信段安全生產(chǎn)故障數(shù)據(jù)采集處理方法
- 故障記錄裝置及故障記錄方法
- 車輛電控單元的故障碼記錄方法及車輛電控單元
- 一種機(jī)載防撞系統(tǒng)故障記錄方法
- 一種機(jī)載防撞系統(tǒng)故障記錄系統(tǒng)及故障記錄解碼系統(tǒng)
- 一種基于日志文件系統(tǒng)的記錄設(shè)備故障診斷方法
- 一種針對變流器的故障數(shù)據(jù)記錄系統(tǒng)
- 故障記錄方法、裝置及汽車控制系統(tǒng)
- 一種用于對電力物資設(shè)備故障進(jìn)行追溯的方法及裝置





