[發明專利]一種實時服務器故障診斷的方法在審
| 申請號: | 201610001572.0 | 申請日: | 2016-01-05 |
| 公開(公告)號: | CN105677500A | 公開(公告)日: | 2016-06-15 |
| 發明(設計)人: | 劉寶陽;劉冰 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07;G06F11/10 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 張靖 |
| 地址: | 250101 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實時 服務器 故障診斷 方法 | ||
技術領域
本發明涉及服務器故障診斷技術領域,具體涉及一種實時服務器故障診斷的方法。
背景技術
隨著計算機技術、大數據等技術的發展,對服務器的穩定性可靠性提出的要求越來越高,服務器設計之初,雖然進行了較多的容錯,可靠性設計,但是隨著服務器系統的復雜度越來越高,難以避免會出現服務器故障,尤其是CPU,內存,PCIE設備故障,為了最大限度的降低對業務的影響,對維護人員提出了更高的要求,要求維護人員能夠快速進行故障診斷,定位故障原因,鑒于故障發生現場一般無法保留,這就造成了維護人員難以快速診斷故障問題,勢必造成客戶業務的影響變大,如何快速診斷故障,定位問題原因,降低客戶業務影響成為急需解決的問題。
發明內容
本發明要解決的技術問題是:為了解決上述問題,本發明提出了一種實時服務器故障診斷方法,通過實時故障狀態監控,自動觸發中斷讀取CPU特定故障狀態寄存器并保存,達到了故障現場時刻診斷服務器的目的,避免故障現場不存在時無法診斷問題,提升了故障診斷的命中率,降低了維護成本和對客戶業務的影響。
本發明所采用的技術方案為:
一種實時服務器故障診斷的方法,所述方法通過BMC(服務器基板管理控制單元)和BIOS通過LPC總線互聯,BMC和CPU通過PECI總線互聯,BIOS和內存、PCIE設備通過SMBus、PCIE總線互聯;所述方法診斷過程如下:
首先,BMC通過LPC總線實時讀取CPU、內存、PCIE設備故障狀態;
其次,BMC檢測到設備故障時,實時觸發中斷,中斷處理過程通過PECI總線讀取CPU的某些特定故障狀態寄存器,并記錄在BMC存儲空間中。
所述BMC對外提供標準網絡接口提供下載功能。故障發生后現場未保留時,維護人員也可通過網絡接口將BMC存儲空間中的故障狀態時刻CPU狀態寄存器下載分析,快速定位故障原因。
所述方法針對內存ECC故障診斷過程如下:
1)將BMC和BIOS通過LPC總線互聯,BMC和CPU通過PECI總線互聯,BIOS和內存、PCIE設備通過SMBus、PCIE總線互聯;
2)BIOS通過SMBus總線檢測到某個內存發生了ECC故障,BIOS將內存ECC故障信息通過LPC總線發送給BMC;
3)BMC讀取到BIOS發送的內存ECC故障信息后,觸發中斷處理過程,BMC通過PECI總線讀取事先約定好的CPU某些故障狀態寄存器,并記錄在BMC存儲空間中;
4)維護人員通過BMC對外提供的標準網絡接口下載存儲在BMC中的寄存器狀態信息,這些寄存器信息中能夠明確指示出哪個位置的內存發生了哪種類型的ECC故障(可糾正ECC或不可糾正ECC),針對故障類型,維護人員對指定位置的內存進行維修或者更換操作,即可保證客戶業務系統恢復工作。
本發明的有益效果為:
本發明實現了故障現場時刻實時診斷服務器故障的目的,提高了故障診斷的命中率,減少了故障定位的時間,有效降低了對客戶業務的影響。和現有方法相比,能夠幫助維護人員快速進行故障診斷,定位故障原因,并且顯著提升了故障定位的命中率,從而減少了對客戶業務的影響,減少了客戶維護的成本,具有廣泛的應用空間。
本發明方法能夠降低服務器后期維護成本,不增加硬件費用,完全由BMC固件實現,所有X86架構服務器均可實現。
具體實施方式
下面結合具體實施方式對本發明進一步說明:
實施例1:
一種實時服務器故障診斷的方法,所述方法通過BMC(服務器基板管理控制單元)和BIOS通過LPC總線互聯,BMC和CPU通過PECI總線互聯,BIOS和內存、PCIE設備通過SMBus、PCIE總線互聯;所述方法診斷過程如下:
首先,BMC通過LPC總線實時讀取CPU、內存、PCIE設備故障狀態;
其次,BMC檢測到設備故障時,實時觸發中斷,中斷處理過程通過PECI總線讀取CPU的某些特定故障狀態寄存器,并記錄在BMC存儲空間中。
實施例2:
在實施例1的基礎上,本實施例所述BMC對外提供標準網絡接口提供下載功能。故障發生后現場未保留時,維護人員也可通過網絡接口將BMC存儲空間中的故障狀態時刻CPU狀態寄存器下載分析,快速定位故障原因。
實施例3:
在實施例2的基礎上,本實施例所述方法針對內存ECC故障診斷過程如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610001572.0/2.html,轉載請聲明來源鉆瓜專利網。





