[發明專利]微處理器可靠性評測方法及其系統有效
| 申請號: | 200910241575.1 | 申請日: | 2009-11-26 |
| 公開(公告)號: | CN101719087A | 公開(公告)日: | 2010-06-02 |
| 發明(設計)人: | 潘送軍;胡瑜;李曉維 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F11/22 | 分類號: | G06F11/22 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 微處理器 可靠性 評測 方法 及其 系統 | ||
技術領域
本發明屬于計算機領域,尤其涉及微處理器可靠性評測方法及其系統。
背景技術
隨著超深亞微米工藝在微處理器制造中的逐步應用,單個芯片上集成的 晶體管數目越來越多,微處理器的性能得到大幅度提高。同時由于集成電路 特征尺寸的減少、電源電壓的降低和頻率的升高,使得微處理器芯片越來越 容易受到間歇故障、軟錯誤和永久故障的影響,芯片的失效率隨之不斷升高, 可靠性成為微處理器設計中一個日益嚴峻的問題。
間歇故障是一種硬件故障,表現為一段時間內信號頻繁無規律地錯誤跳 變,主要是由于制造工藝的變異,芯片使用過程中的老化,以及電壓溫度的 波動而引起的;軟錯誤是指電路由于受到宇宙射線中的高能粒子或芯片封裝 中α粒子的輻射作用,產生的單比特位翻轉,從而改變存儲單元中保存的數 據或邏輯電路運算結果。永久故障反映的是電路單元產生了不可恢復的故障, 主要是由于制造缺陷,如硅片中的污染或材料的老化,引起的。間歇故障和 軟錯誤可導致相似的跳變效應,但它們之間有如下不同:第一,從空間的角 度,一個間歇故障將在同一位置出現多次,而一個軟錯誤則幾乎不會在同一 位置連續出現。第二,從時間的角度,一個間歇故障是突然頻繁發生,而一 個軟錯誤通常表現為單比特位翻轉或單事件瞬態故障;第三,如果一個受間 歇故障影響的硬件結構被替換,那么發生的間歇故障將隨之消失,但軟錯誤 將同樣可能發生在該結構上。間歇故障與永久故障也存在不同,主要表現為 它們的持續時間不同。隨著間歇故障持續的時間不斷變長,最終也可能轉化 為永久故障。
本領域中有研究認為軟錯誤和永久故障是引起微處理器芯片失效的主要 原因,根據實際系統運行過程中收集的數據顯示,間歇故障已成為影響芯片 失效的最主要因素。如果不采用容錯技術提高可靠性,微處理器芯片的失效 率將隨著晶體管數目的增多而成指數級增長。
為提高系統的可靠性,傳統采用的技術包括三模冗余和線程級冗余。三 模冗余對同一功能單元使用三個冗余模塊,三個模塊提供相同的輸入,最后 用一個多數表決器對三個輸出結果進行表決,以確定最后的輸出,如圖1所 示。三模冗余允許其中的任一模塊出現故障,因此能實現高可靠系統,但該 技術帶來的面積和功耗開銷將達到300%;線程級冗余技術中通過對運行的線 程產生一個冗余線程,其中一個稱為主線程,另外一個稱為從線程,兩個線 程的輸入一致,產生的結果需比較一致后才能寫入到內存中,如圖2所示。 該方法也能達到較高的可靠性,但將導致30%的性能損失。可見現有容錯技 術在確保實現可靠性目標的同時,帶來了較大的性能、面積以及功耗方面的 開銷。因此,微處理器中需要評測不同的容錯技術帶來的利與弊。如果采用 嚴格的容錯技術,將引起不必要的開銷;反之,如果采用輕量級的容錯技術, 則可能達不到系統的可靠性設計目標。微處理器領域中需要一種簡單、量化 的評測指標,分析不同結構中發生間歇故障對程序運行的影響,從而指導可 靠性設計。現有技術中使用的評測指標MTTF(Mean?Time?To?Failure,平均 失效時間)或FIT(Failures?In?Time,即時錯誤)主要用于表征不同結構 的可靠性,但沒有考慮到不同結構對故障的屏蔽效果,以及該些結構的使用 率,不適于描述發生的各種故障對程序運行的影響。
目前研究人員已經提出相關的評測指標,分析不同結構中發生的軟錯誤 對程序執行結果的影響。其中一種評測指標稱為體系結構脆弱因子。它表示 微處理器中某結構發生的軟錯誤最終影響程序執行結果的概率。體系結構脆 弱因子越高,表明該結構中發生的軟錯誤越容易導致程序執行出錯,相應的 結構需要采取更嚴格的容錯技術,以提高系統的可靠性。計算某結構的體系 結構脆弱因子,可通過分析一段時間內該結構中包含的體系結構正確執行位 進行。體系結構脆弱因子是從體系結構和微體系結構的角度分析發生的軟錯 誤對程序執行結果的影響。分析不同的微處理器結構,以及運行不同的測試 程序時,計算得到的體系結構脆弱因子都將發生變化。另外一個分析軟錯誤 的評測指標為程序脆弱因子,該評測指標僅從體系結構的角度分析程序運行 過程中對軟錯誤的屏蔽效果,便于指導程序設計以及選擇編譯優化技術,提 高系統的可靠性。
此外針對永久故障,研究人員提出了一種永久故障脆弱因子,該評測指 標主要用于分析比較不同容錯技術對系統可靠性提高的程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910241575.1/2.html,轉載請聲明來源鉆瓜專利網。





