[發(fā)明專利]容忍多處理器數(shù)據(jù)處理系統(tǒng)中不可恢復差錯的方法和裝置有效
| 申請?zhí)枺?/td> | 01103370.3 | 申請日: | 2001-02-02 |
| 公開(公告)號: | CN1319807A | 公開(公告)日: | 2001-10-31 |
| 發(fā)明(設計)人: | 法南茨·蒙尼斯-圖塞;小尼古拉斯·A·普萊查克 | 申請(專利權)人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F13/14 | 分類號: | G06F13/14;G06F11/20 |
| 代理公司: | 中國國際貿(mào)易促進委員會專利商標事務所 | 代理人: | 付建軍 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 容忍 處理器 數(shù)據(jù)處理系統(tǒng) 不可 恢復 差錯 方法 裝置 | ||
本發(fā)明涉及計算機系統(tǒng)領域,更具體地,是涉及一個容忍多處理器系統(tǒng)中數(shù)據(jù)差錯的數(shù)據(jù)結構和方法。
多處理計算機系統(tǒng)通常包含兩個或更多的可以被用來完成計算任務的處理器。可以在一個處理器上完成一個具體的計算任務,其它的處理器同時完成無關的處理任務。可選地,一個具體任務的各組成部分可以被分布在多個處理器上以便減少完成計算任務所需的時間。概括地講,處理器是一種被用來對一或多個操作數(shù)進行操作以產(chǎn)生一個結果的設備。根據(jù)處理器執(zhí)行的一個指令來完成操作。
具有單個基地址和相關(coherent)高速緩存的多處理器系統(tǒng)提供了一種靈活并且強有力的計算環(huán)境。單個基地址和相關高速緩存共同緩解了數(shù)據(jù)分區(qū)和動態(tài)負載平衡的問題。單個基地址和相關高速緩存還為并行編譯器,標準操作系統(tǒng)和多程序提供了較好的支持,從而允許更靈活和有效地利用機器。
多處理計算機系統(tǒng)的一種結構是分布存儲器體系結構。分布存儲器體系結構通常包含多個結點,其中每個結點均具有一或多個處理器和一個存儲器。各結點被連接到一個網(wǎng)絡以允許在結點之間進行通信。當被當成一個整體時,所有結點的存儲器組合構成一個可以被各個結點訪問的“共享存儲器”。通常,用目錄來標識哪些結點具有對應于一個具體地址的數(shù)據(jù)的副本。通過檢查目錄并確定數(shù)據(jù)狀態(tài)來維護數(shù)據(jù)的相關性。
上述示意性的并且已經(jīng)出現(xiàn)的基于目錄的高速緩存相關體系結構包含高速緩存相關非統(tǒng)一存儲器訪問(CC-NUMA)和唯高速緩存存儲器體系結構(COMA)。CC-NUMA和COMA體系結構均具有一個分布存儲器,一個可伸縮互連網(wǎng)絡,和基于目錄的高速緩存相關。分布存儲器和可伸縮互連網(wǎng)絡提供所需的可伸縮存儲器帶寬,而基于目錄的方案提供了高速緩存相關。與CC-NUMA體系結構相反,COMA體系結構把一個每結點(per-node)主存儲器轉換成一個也被稱作吸引(attraction)存儲器(AM)的大的第二或第三高速緩存。通過在主存儲器數(shù)據(jù)的高速緩存線大小分區(qū)中加入標簽來進行轉換。結果,系統(tǒng)中數(shù)據(jù)項的位置與數(shù)據(jù)項的物理地址隔離開來,并且根據(jù)一個存儲器索引模式在主存儲器中自動遷移或復制數(shù)據(jù)項。
不幸的是,在COMA和NUMA體系結構中,數(shù)據(jù)可能會被破壞,從而導致存儲器中的差錯。由于存儲器作為電子存儲設備會返回不同于最初存儲的內(nèi)容的信息,所以會發(fā)生這種差錯。一般情況下,通常會在一個存儲器系統(tǒng)中發(fā)生兩種差錯:可重復(硬)差錯和瞬時(軟)差錯。一個硬差錯通常是一個硬件故障的結果,并且由于是始終如一并且可重復的,所以易于診斷和糾正。當一個位僅一次讀出錯誤數(shù)值并且后續(xù)操作均正確時,就發(fā)生了一次軟差錯。
對存儲器差錯的唯一防護是使用存儲器檢錯或糾錯協(xié)議。某些協(xié)議可以只檢測一個八位數(shù)據(jù)字節(jié)的一個位中的差錯,其它協(xié)議可以自動檢測多于一個位中的差錯。別的協(xié)議可以檢測并糾正單位和/或多位存儲器問題。
一般的差錯檢測/糾正機制包含奇偶校驗,糾錯碼(ECC),等等。本領域中眾所周知的是使用奇偶校驗和糾錯碼(ECC)確認在一個中央處理單元(CPU)和一個存儲器,編程輸入/輸出(PIO)設備或其它設備之間傳送的數(shù)據(jù)的可靠性。并且,ECC被用來恢復存儲器中的某些數(shù)據(jù)差錯。
當允許奇偶校驗檢查時,每當一個字節(jié)被寫到存儲器中時,一個被稱作奇偶校驗生成器/檢查器的邏輯電路檢查該字節(jié)并且確定數(shù)據(jù)字節(jié)具有偶數(shù)或奇數(shù)個一。如果有偶數(shù)個一,則第九(奇偶校驗)位被設成一,否則被設成零。這樣,無論在最初的八個數(shù)據(jù)位被有多少個位被設成一,九個位加起來總有奇數(shù)個一。這種機制被稱作奇校驗。當從存儲器讀出數(shù)據(jù)時,奇偶校驗電路充當一個差錯檢查器。該電路讀出所有九個位并且再次確定有偶數(shù)還是奇數(shù)個一。如果有偶數(shù)個一,則這些位中的一個很可能有差錯。當檢測到一個奇偶差錯時,奇偶校驗電路產(chǎn)生一個中斷,該中斷指示處理器暫停運行以保證不正確的存儲器不會破壞正在執(zhí)行或可執(zhí)行的進程。
奇偶校驗檢查提供了單位差錯檢測,但不校正存儲器差錯。并且,奇偶校驗檢查僅僅確定一個差錯的存在,并不能校正差錯。ECC不僅檢測單位和多位差錯,而且可以校正單位或多位差錯。ECC使用一個特殊的算法對一個位塊中的信息進行編碼,這個編碼包含足夠的細節(jié)從而允許恢復受保護數(shù)據(jù)中的一個單位或多位差錯。是校正單位差錯還是校正多位差錯取決于所使用的ECC算法。當ECC檢測到一個不可校正的差錯時,便產(chǎn)生一個中斷,該中斷指示系統(tǒng)關機以避免數(shù)據(jù)被破壞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/01103370.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 調(diào)整最大報文長度的方法及裝置
- 在無線通信系統(tǒng)中基于延遲容忍信息處理操作的方法和支持該方法的設備
- 一種基于核內(nèi)存儲的SYN-Flood攻擊的容忍系統(tǒng)及容忍方法
- 通信終端和通信方法
- 一種網(wǎng)絡業(yè)務質(zhì)量風險容忍度的評估方法和系統(tǒng)
- 一種出行等候容忍時間預測方法、系統(tǒng)、裝置及存儲介質(zhì)
- 基于容忍機制的環(huán)回檢測方法及系統(tǒng)
- 一種數(shù)據(jù)傳輸?shù)姆椒ā⒔尤腩悇e創(chuàng)建的方法及裝置
- 光學鄰近修正、光掩膜版制作及圖形化方法
- 通過非透明橋設備傳輸信息的系統(tǒng)、方法和該設備
- 在數(shù)據(jù)處理系統(tǒng)中基于所需電池壽命的計算機電源管理
- 在網(wǎng)絡數(shù)據(jù)處理系統(tǒng)中安裝軟件的方法和系統(tǒng)
- 遠程數(shù)據(jù)處理系統(tǒng)的配置
- 多個子據(jù)處理系統(tǒng)之間在線切換的方法
- 跨境多幣種數(shù)據(jù)處理系統(tǒng)和方法
- 用于批量和實時數(shù)據(jù)處理的設備、系統(tǒng)和方法
- 動態(tài)地調(diào)整品牌和平臺界面元素
- 基于銀行卡交易的數(shù)據(jù)處理方法以及數(shù)據(jù)處理系統(tǒng)
- 數(shù)據(jù)處理方法、裝置和設備
- 用于批量和實時數(shù)據(jù)處理的設備、系統(tǒng)和方法





