[發(fā)明專利]單芯片和雙芯片備援有效
| 申請?zhí)枺?/td> | 201280068687.1 | 申請日: | 2012-01-31 |
| 公開(公告)號: | CN104081373A | 公開(公告)日: | 2014-10-01 |
| 發(fā)明(設(shè)計(jì))人: | G.戈斯丁;E.漢金 | 申請(專利權(quán))人: | 惠普發(fā)展公司;有限責(zé)任合伙企業(yè) |
| 主分類號: | G06F13/16 | 分類號: | G06F13/16;G06F11/07;G06F11/10 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 王洪斌;徐紅燕 |
| 地址: | 美國德*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 芯片 | ||
背景技術(shù)
計(jì)算設(shè)備可能遭受任何數(shù)量的不同類型的故障。一個特定類型的故障是組成存儲器系統(tǒng)的存儲器芯片中的故障。單獨(dú)存儲器芯片的故障可以減少對系統(tǒng)可用的存儲器的量。因?yàn)榇鎯ζ餍酒ǔ2皇菃为?dú)可維修的,所以替換故障存儲器芯片可能需要完整替換存儲器模塊,其可能包含許多非故障芯片。此外,在計(jì)算機(jī)操作時存儲器典型地不可維修,并且因此可能需要停機(jī)時間來實(shí)施故障存儲器模塊的替換。
附圖說明
圖1描繪了存儲器系統(tǒng)的示例的框圖。
圖2描繪了具有芯片故障的存儲器系統(tǒng)的示例的另一個框圖。
圖3(a-b)描繪了具有芯片故障的存儲器系統(tǒng)的附加示例。
圖4(a-c)描繪了具有多個芯片故障的存儲器系統(tǒng)的示例。
圖5描繪了從芯片故障恢復(fù)的示例流程圖。
圖6描繪了從芯片故障恢復(fù)的另一個示例流程圖。
圖7描繪了從芯片故障恢復(fù)的示例流程圖。
圖8描繪了從多個芯片故障恢復(fù)的示例流程圖。
具體實(shí)施方式
由于需要替換有故障的存儲器部件,所以計(jì)算系統(tǒng)中的存儲器故障可以導(dǎo)致意外的系統(tǒng)停機(jī)時間。當(dāng)今計(jì)算環(huán)境中的意外停機(jī)時間(其中計(jì)算系統(tǒng)的高可用性被預(yù)期)可能是無法忍受的。當(dāng)故障在服務(wù)器系統(tǒng)中發(fā)生時,由于存儲器故障所引起的問題可能進(jìn)一步被惡化,因?yàn)樵S多不同的用戶可以被系統(tǒng)停機(jī)時間影響。此外,許多組織依賴于在其計(jì)算機(jī)上運(yùn)行的應(yīng)用的連續(xù)可用性,以實(shí)現(xiàn)組織的目標(biāo)。由于存儲器故障引起的意外停機(jī)時間對于那些目標(biāo)可能是不利的。
為了緩解存儲器故障的影響,數(shù)個技術(shù)是可用的。一個這種技術(shù)可以被稱為單芯片備援(SCS)。在SCS系統(tǒng)中,存儲器控制器可以在存儲器中存儲緩存行,使得任何單個存儲器芯片的故障不導(dǎo)致緩存行變?yōu)椴豢捎谩@纾彺嫘锌梢员淮鎯υ诰哂绣e誤修正代碼(ECC)保護(hù)的存儲器中。能夠檢測和修正單芯片的故障的ECC可以從多個可用錯誤修正代碼中被選擇。當(dāng)存儲器中的芯片故障時,ECC可以被用于確保緩存行仍然可用。
SCS系統(tǒng)能夠繼續(xù)運(yùn)行,甚至在ECC碼字內(nèi)的單個存儲器芯片故障的情形下。此外,SCS系統(tǒng)能夠以高效的方式利用存儲器和存儲器控制器之間的帶寬。然而,SCS系統(tǒng)遭受它們僅能夠從ECC碼字內(nèi)的單芯片故障恢復(fù)的固有問題。碼字內(nèi)的第二存儲器芯片的故障最低可以導(dǎo)致對替換故障存儲器的系統(tǒng)停機(jī)時間的需求。
可以被用來緩解存儲器中的故障的另一個技術(shù)可以被稱為雙芯片備援(DCS)。在DCS中,緩存行再次被存儲在具有許多已知錯誤修正代碼中的一個的保護(hù)的存儲器中,所述錯誤修正代碼能夠在每個ECC碼字內(nèi)檢測和修正最多兩個存儲器芯片故障。與SCS相比較,能夠在兩個錯誤芯片中修正故障的錯誤修正代碼典型地橫跨大量芯片分布緩存行,從而當(dāng)芯片故障時減少被損壞的位的數(shù)量。例如,緩存行可以在兩個分離的存儲器總線上包含的芯片之間被分布,或在單個總線上的芯片之間被分布但在單個總線上的地址之間分布,使得存儲緩存行的兩個芯片的任何錯誤不使所述行不可用。緩存行的分布可以在不同總線上的存儲器模塊、相同總線上的不同存儲器模塊、或相同存儲器模塊上的不同排列(rank)之間發(fā)生。
DCS具有如下優(yōu)點(diǎn):在需要停機(jī)時間以便修理之前,能夠經(jīng)受住ECC碼字內(nèi)的兩個存儲器芯片中的故障。因此,第一故障可以發(fā)生,并且系統(tǒng)可以繼續(xù)操作。甚至當(dāng)?shù)诙收习l(fā)生時,系統(tǒng)繼續(xù)操作。因此,與SCS相比較,系統(tǒng)管理員可以被給予更寬的機(jī)會窗口來在計(jì)劃維護(hù)時段期間致力于解決存儲器故障。第一存儲器芯片的故障不導(dǎo)致其中接下來的故障可能導(dǎo)致系統(tǒng)不可用的情形。可能不需要維修直到第二芯片故障,第二芯片故障直到第一芯片故障之后的相當(dāng)大的時間量才可能會發(fā)生。
然而,由DCS提供的增加的保護(hù)是要付出代價(jià)的。如所提及的,DCS通過橫跨多個總線或單個總線內(nèi)的存儲器地址的多個不同范圍存儲緩存行進(jìn)行操作。訪問多個總線或地址范圍的需求導(dǎo)致從存儲器到存儲器控制器的數(shù)據(jù)轉(zhuǎn)移的低效率,因?yàn)樾枰~外的周期來配置從不同總線或單個總線上的不同范圍讀取/寫入到不同總線或單個總線上的不同范圍。為獲取DCS的保護(hù),多達(dá)40%的總線帶寬可能被損失。即使還不具有任何存儲器芯片的故障,總線帶寬的損失也發(fā)生。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于惠普發(fā)展公司;有限責(zé)任合伙企業(yè),未經(jīng)惠普發(fā)展公司;有限責(zé)任合伙企業(yè)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201280068687.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





