[發明專利]一種用于機群容錯的系統和方法有效
| 申請號: | 200810211566.3 | 申請日: | 2008-09-19 |
| 公開(公告)號: | CN101377750A | 公開(公告)日: | 2009-03-04 |
| 發明(設計)人: | 霍志剛 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F11/00 | 分類號: | G06F11/00;G06F11/14 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 | 代理人: | 梁揮;王金寶 |
| 地址: | 100080北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 機群 容錯 系統 方法 | ||
技術領域
本發明涉及機群容錯,特別涉及一種基于進程檢查點切取和恢復的用于機群容錯的方法和系統。
背景技術
機群是當前高性能計算機的主流結構,它的結點和互連網絡通常都采用現成的商品化部件而非定制。這種硬件平臺的開放性和可擴展性使機群相對于傳統的大型機(Mainframe)、大規模并行處理系統(Massively?ParallelProcessors,MPPs)和對稱多處理系統(Symmetric?MultiProcessors,SMPs)而言具有優良的性能價格比。隨著機群系統規模的不斷擴展和復雜性的逐漸提高,其可靠性呈現下降趨勢。機群系統的容錯問題已經引起了學術界和工業界的廣泛關注。探索具有較低的開銷和良好的可擴展性的機群容錯機制,使得百萬億次、千萬億次規模的機群系統能夠具有理想的可用性是當前機群系統設計所面臨的迫切任務。
基于進程檢查點切取和恢復技術的卷回恢復策略是在機群等并行計算機系統中并行應用容錯的主要途徑。
進程檢查點切取和恢復技術是指在一個時刻保存一個目標進程的運行狀態,并在隨后的一個時刻以此狀態為起點重建該進程,使其繼續運行。在該過程中,被保存的進程狀態叫做該進程的檢查點,保存檢查點的操作常稱為切取(Checkpointing)。而利用檢查點重建進程,使其能夠繼續運行的操作稱為恢復(Recovery或Restart)。對于在應用的運行過程中周期性執行的檢查點操作,相鄰兩次操作之間的時間跨度稱為檢查點間隔。進程檢查點的內容不但包括基本的進程屬性,用戶地址空間中的數據段、堆棧段、堆等存儲區域的當前內容,而且還包括用于進程間通信和輸入/輸出(I/O)的各種操作系統資源的當前狀態,例如已創建的套接字(Sockets)、共享內存、消息隊列和已打開的各種類型的文件等等。
根據在機群系統中實現的不同層次,目前已有的進程檢查點技術可以分為系統級檢查點技術和用戶級檢查點技術。系統級檢查點技術是通過修改操作系統代碼或者加載核心擴展模塊的方式,在操作系統的核心層實現進程狀態的保存和恢復。用戶級檢查點技術是在目標進程的用戶態上下文中對其狀態進行保存和恢復。這兩種現有技術都需要在目標進程所在的結點內運行,其不足之處在于當目標結點出現故障的時候檢查點操作無法運行。這一特點使得現有的并行應用檢查點技術需要在并行計算機出現任何軟硬件錯誤之前,對所有的相關進程執行檢查點操作。因此,現有的協同式并行應用檢查點技術有如下缺點:一,需要定期對一個并行應用中的所有進程進行檢查點操作,導致時間開銷很大;二,檢查點映像文件所占存儲資源龐大,為了滿足檢查點的存儲需求,會使機群系統部件數量增多,從而導致系統成本增加,但系統整體可靠性卻下降。
發明內容
本發明的一個目的是為并行應用提供局部化的快速故障恢復,提供一種用于機群容錯的系統。
本發明的另一個目的是提供一種用于機群容錯的方法,克服現有的并行應用檢查點方法通過對一個并行應用中的所有進程執行周期性的檢查點操作實現容錯所導致的不足。
本發明的發明內容主要是源于對機群故障的如下規律性:
第一,并行應用異常中止過程中的多米諾骨牌效應。對于一個并行程序而言,除了諸如水災、斷電等特殊的全系統故障之外,往往是其中一個進程首先異常中止,然后這一故障通過進程間通信機制逐漸擴散到更多的進程,最終導致整個并行應用的中止。
基于該規律認識,本發明能夠在結點出現故障的情況下及時地對一個并行應用中受故障影響的進程單獨進行檢查點和恢復,從而避免整個并行應用因為極少數受結點故障影響的進程而異常中止。
第二,并行應用中一個進程的異常中止往往源于該進程所在結點的操作系統、后臺服務進程錯誤和機群系統資源緊張等客觀故障因素。由于現有的處理器(CPU)和操作系統對用戶進程的各種保護機制,上述客觀故障因素往往不會對無關應用程序的進程狀態造成破壞,即結點故障發生時,其操作系統中的絕大部分用戶進程的狀態依然正確而完整。基于該規律認識,本發明可以對已出現故障的結點中的進程執行檢查點操作,獲取該進程的正確狀態。
第三,上述客觀故障的發生是一個過程。無論是硬件故障,還是軟件故障,從故障被激活到造成無法忽略或者不可挽回的機群系統錯誤和失效,這兩個時間點之間往往存在一個過程。基于該規律認識,本發明可以根據故障的類型,針對不同硬件部件的特點或者軟件故障傳播的可能路徑確定當前故障對于指定進程的狀態的影響,甚至阻止特定故障導致計算機系統的崩潰。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810211566.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有電子琴譜的音樂鋼琴
- 下一篇:顯示面板、顯示裝置





