[發明專利]內存故障自動定位方法在審
| 申請號: | 201210224405.4 | 申請日: | 2012-06-28 |
| 公開(公告)號: | CN103514068A | 公開(公告)日: | 2014-01-15 |
| 發明(設計)人: | 王雁鵬;曹瑞 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F11/22 | 分類號: | G06F11/22 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 內存 故障 自動 定位 方法 | ||
技術領域
本發明涉及服務器維護技術領域,特別涉及一種內存故障自動定位方法。
背景技術
在數據中心中,服務器的數量非常龐大,而且在每臺機器中存在多根內存。如果內存條出現故障,則需要確定哪個內存條出了問題。在服務器內存故障定位方面,帶外內存監控已經成為了大多數企業依賴的手段,服務器生產商往往通過BMC(Baseboard?Management?Controller,基板管理控制器)+傳感器(sensor)的方法向用戶提供服務器硬件的健康狀態。其中內存的故障由BIOS(Basic?Input?Output?System,基本輸入輸出系統)支持的SMI(structure?of?management?information,管理信息結構)截取,并將信息存儲于BMC系統的Sensor中,用戶可以通過IPMI(Intelligent?Platform?Management?Interface,智能型平臺管理接口)管理接口讀取上述Sensor的值,從而獲得內存的健康狀態。
現有的帶外內存監控存在以下缺點:
第一,絕大部分機器型號不支持精確的內存監控,因此,使用帶外內存監控要受到廠商和服務器型號的限制。
第二,帶外內存監控的報警機制往往不符合企業實際的需求。廠商在確定報警閾值時,通常采用的是從各個客戶單位調研來的結果的綜合值,并且不能動態調整。但是,這個值不能完全的適應每一個企業的需要。
發明內容
本發明的目的旨在至少解決上述技術缺陷之一,特別提出一種內存故障自動定位方法,該方法可以對服務器中的故障內存條的位置進行定位。
為達到上述目的,本發明的實施例提供了一種內存故障自動定位方法,包括如下步驟:
讀取機器檢查架構MCA寄存器的值,并對所述寄存器的值進行解析以獲取內存故障信息,其中,所述內存故障信息包括內存故障類型以及所述內存故障類型對應的故障次數;
將每種所述內存故障類型對應的故障次數分別與預設的對應故障次數閾值進行比較;以及
對所述故障次數超過對應的所述故障次數閾值的內存故障進行定位以獲取故障內存的邏輯位置。
根據本發明實施例的內存故障自動定位方法,可以對服務器中發生故障的內存進行精確地定位,并且針對內存出現故障的種類對其進行有效的修復。在確定內存條的位置之后,如果錯誤的規模不是很大,可以通過修復手段進行修復,而無需更換故障內存條,降低了內存的更換率,從而節省了企業的運營成本。本發明可以實現對內存自動的修復,從而減少因停機對企業服務的影響,并降低因停機為企業帶來的潛在風險。
在本發明的一個實施例中,所述內存故障類型包括:雙列直插式存儲模塊DIMM故障和頁面Page故障。
在本發明的一個實施例中,所述DIMM故障包括:可糾正故障和不可糾正故障。
在本發明的一個實施例中,當所述內存故障類型為所述可糾正故障時,在所述可糾正故障的故障次數超過預設的可糾正故障次數閾值時,發出故障報警信號。
在本發明的一個實施例中,當所述內存故障類型為所述不可糾正故障時,重啟服務器,其中,所述重啟服務器包括以下兩種方式:熱重啟和冷重啟。
在本發明的一個實施例中,當采用熱重啟方式重啟服務器時,熱重啟后,讀取所述MCA寄存器的值,并記錄對應的不可糾正故障。
在本發明的一個實施例中,當采用冷重啟方式重啟服務器時,讀取內存控制器的寄存器值以獲取問題槽位,并發出故障報警信號。
在本發明的一個實施例中,所述獲取問題槽位,包括如下步驟:讀取內存控制器的寄存器值,判斷相應槽位是否有內存條插入,其中,所述內存控制器的寄存器值用于指示故障槽位;將存儲有良性槽位信息的內存識別信息與所述內存控制器的寄存器值進行對比;將匹配失敗的槽位作為所述問題槽位。
在本發明的一個實施例中,還包括如下步驟:根據所述故障內存的邏輯位置查找所述故障內存在服務器中的物理槽位,其中,所述故障內存的邏輯位置通過下述參數進行表示:CPU號、通道號和DIMM槽。
在本發明的一個實施例中,當所述故障類型為頁面Page故障時,將對應于發生故障的頁面的映射修改至備用內存池的頁面,其中,所述備用內存池存儲有多個正常頁面。
本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
附圖說明
本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210224405.4/2.html,轉載請聲明來源鉆瓜專利網。





