[發明專利]用散列函數區分存儲系統中隨機和重復差錯的方法和系統有效
| 申請號: | 201110281146.4 | 申請日: | 2011-09-21 |
| 公開(公告)號: | CN102541667A | 公開(公告)日: | 2012-07-04 |
| 發明(設計)人: | S·K·巴哈里;鄧夫子;M·C·埃萊斯;J·Q·赫爾南德斯;D·A·勞維;C·L·普林頓;M·L·斯科蘭德;I·R·扎帕塔 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F11/00 | 分類號: | G06F11/00 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 高青 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用散列 函數 區分 存儲系統 隨機 重復 差錯 方法 系統 | ||
技術領域
本發明一般涉及計算機存儲系統,更具體地說,涉及存儲系統中的差錯檢測和預測故障分析。
背景技術
計算機系統存儲器包括長期(非易失性)和短期(易失性)存儲設備。長期存儲設備,比如硬盤驅動器(HDD)即使在斷電狀態下也能夠保持軟件和數據。短期存儲設備,比如雙列直插存儲器模塊(DIMM,Dual?In-Line?Memory?Module)能夠在通電狀態下保持指令和數據。軟件指令和數據可以無限期地保存在長期存儲器中,并根據需要加載到短期存儲器上以便由處理器執行。執行指令的結果,比如處理后的數據也可被臨時保存在短期存儲器中,用于通電計算會話期間的繼續訪問,或者被保存在長期存儲器中,用于后續計算會話中的訪問和處理。
在DIMM中會出現差錯,所述差錯會影響存儲系統的性能和可靠性。一種DIMM差錯是單比特差錯(SBE,Single?Bit?Error)。極其接近高效開關調節器的隨機電源和地噪聲是SBE的一個原因。存儲系統中越來越嚴格的定時要求是SBE的另一個作用因素。DIMM還含有越來越大的存儲單元密度,這導致每個DIMM的比特差錯率(BER)更高。每個計算機系統含有密度不斷增大的DIMM,這也會導致相應更高的差錯率。
發明內容
本發明的一個實施例提供一種檢測存儲模塊中的單比特差錯的方法。每個單比特差錯被識別為隨機差錯或重復差錯。計數在一個時間間隔內發生的每個識別的隨機差錯和每個識別的重復差錯。響應于在所述時間間隔內,識別的隨機差錯的數目達到隨機差錯閾值,或者識別的重復差錯的數目達到重復差錯閾值,產生報警。重復差錯閾值小于隨機差錯閾值。
本發明的另一個實施例提供一種存儲系統。存儲控制器包括用于檢測存儲模塊中的單比特差錯的差錯檢測控制邏輯。包括計數在一個時間間隔內發生的隨機差錯的隨機差錯計數器。包括計數在所述時間間隔內發生的重復差錯的重復差錯計數器。提供比較隨機差錯計數器與隨機差錯閾值以及比較重復差錯計數器與重復差錯閾值的閾值比較器。重復差錯閾值小于隨機差錯閾值。報警發生器被配置成響應于在所述時間間隔內,隨機差錯計數器達到隨機差錯閾值,或者重復差錯計數器達到重復差錯閾值,產生報警。
附圖說明
圖1是按照本發明的一個實施例,對其實現預測故障分析(PFA,predictive?failure?analysis)的計算機存儲系統的示意圖。
圖2是一般概述可在存儲系統中進行的PFA處理的流程圖。
具體實施方式
本發明的實施例包括在存儲系統中進行預測故障分析(PFA)的系統和方法。每個單比特差錯(SBE)現在可被識別為隨機差錯或者重復差錯,隨機差錯是被確定在預定時間間隔內在特定存儲地址或存儲地址塊出現不超過一次的差錯,重復差錯是被確定在所述預定時間間隔內在特定存儲地址或特定塊出現多于一次的差錯。隨后可以對照不同閾值來比較在預定時間間隔內出現的隨機差錯和重復差錯的數目,以便生成PFA報警。更特別地,與被識別為重復差錯的SBE相比,可對被識別為隨機差錯的SBE設定更高的閾值,因為與重復差錯相比,隨機差錯明顯不太可能影響存儲器性能。隨機差錯還不太可能擴展成無法校正的差錯,所述無法校正的差錯的出現對存儲系統的運行的破壞性極大。因此,按照這種方式區分隨機差錯和重復差錯將使得可以識別DIMM中的更嚴重的重復差錯,同時避免當DIMM僅經歷比率可接受的隨機差錯時,不必要地或者過早地把DIMM標記成壞的DIMM。
在下面討論的一個實施例中,使用散列處理來減少跟蹤系統存儲器中重復發生差錯的每個位置所需的存儲器的量和計算循環的數目。可對識別出SBE的存儲地址應用散列處理,以確定將記錄SBE的表格位置。存儲地址可被分組成多個塊,其中當應用散列函數時,給定塊中的每個存儲地址產生相同的散列和。隨后,可以使用小至1比特簽名的相應差錯狀態字段來跟蹤在所述存儲地址或存儲地址塊是否產生了第一個或后續差錯。整個系統所需的計數器少至兩個,一個計數器用于跟蹤被識別為隨機差錯的SBE的總數,而另一個計數器用于跟蹤在存儲系統中被識別為重復差錯的SBE的總數。可獨立地調整諸如隨機差錯閾值、重復差錯閾值、時間間隔、散列表格的大小、每個存儲地址塊的大小、以及每個差錯狀態字段的大小的參數,以按需調整存儲系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110281146.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中速立式漆包線機的熱風循環烘烤裝置
- 下一篇:一種新型鋼帶鎧裝設備





