[發明專利]基于檢查點的計算機的容錯方法有效
| 申請號: | 201710369325.0 | 申請日: | 2017-05-23 |
| 公開(公告)號: | CN107193692B | 公開(公告)日: | 2020-01-21 |
| 發明(設計)人: | 嚴明玉;張志敏;吳軍;龔健;張浩;孫凝暉 | 申請(專利權)人: | 中國科學院計算技術研究所;北京控制工程研究所 |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14 |
| 代理公司: | 11280 北京泛華偉業知識產權代理有限公司 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢查點 分塊 用戶進程 計算資源 保存 空閑 并行文件系統 超級計算機 進程狀態 計算機 出錯 帶寬 恢復 | ||
本發明提供一種基于檢查點的計算機的容錯方法。該方法包括:在判斷為執行檢查點時,暫停用戶進程;利用計算機中空閑的計算資源對所述用戶進程的進程狀態數據進行分塊并計算每個分塊的hash值,以確定需要保存的分塊;在計算分塊的hash值的過程中,將已經確定的需要保存的分塊和相應的hash值進行保存,以形成用于恢復出錯的用戶進程的檢查點文件。利用本發明的方法能夠有效的利用超級計算機中空閑計算資源和并行文件系統的I/O帶寬,從而縮短執行檢查點和檢查點卷回的時間。
技術領域
本發明涉及計算機技術領域,尤其涉及一種基于檢查點的面向計算機(特別是超級計算機)的容錯方法。
背景技術
隨著信息技術的發展,超級計算機的節點和處理器數目在持續增加,性能也在呈倍增加,然而,據統計,整個超級計算機系統的平均故障間隔時間(MTBF,Mean TimeBetween Failure)卻減少到了只有幾個小時。例如,中國的天河2號超級計算機由16000個節點組成,每個節點有2顆基于Ivy Bridge-E Xeon E5 2692處理器和3個Xeon Phi協同處理器,累計共有32000顆Ivy Bridge處理器和48000個Xeon Phi協同處理器,總計有312萬個計算核心。假如天河2號超級計算機中的每個處理器的MTBF是876000小時(100年),那么整個天河二號的MTBF是876000/(48000+32000)=8.76個小時。而且,內存容量的增加也會導致系統出錯概率升高,超大規模計算機系統每1到3個小時就會出現軟件或者硬件錯誤。在未來的10年間,CPU和內存的短暫性錯誤會增加30倍,因此,對于超大規模計算機系統,保證其可靠性越發重要。
目前,基于檢查點的容錯技術是保證大規模計算機系統可靠性的主要技術,該技術將正在運行的進程的狀態數據保存到永久存儲中,然后在必要的時候使用保存的狀態數據將當前的進程狀態卷回到執行檢查點的時刻,被保存的進程狀態數據稱為檢查點文件。檢查點技術的開支主要包括保證所有進程處于檢查點全局一致狀態的時間、將龐大的檢查點文件保存到永久存儲中的時間和檢查點的設置頻率等。檢查點文件越大,檢查點設置頻率越高,檢查點技術的開支就越大。大規模計算機系統會由于周期性地執行檢查點導致性能下降超過50%并且額外增加80%的I/O訪問。例如,將由128000個處理器組成的BlueGene/L超級計算機中所有RAM的數據(1.6PB)保存到并行文件系統需要大約20分鐘的時間。隨著計算機系統的規模增加,使用的部件增多,整個系統的MTBF會急劇降低,系統需要更頻繁地執行檢查點。檢查點的時間開支將會主導用戶程序的執行時間,導致計算機系統的性能進一步下降。
此外,在當前的大規模計算機系統中,在執行檢查點時,由于完整的檢查點文件能達到PB級別的大小,這些檢查點文件通常被寫到永久存儲中,例如,本地磁盤或者RAID5設備等,甚至通過網絡發送到遠程存儲設備上,會造成大量集中的I/O訪問或者網絡傳輸。而且,在執行檢查點過程中,大部分計算資源處于空閑狀態。由于檢查點文件特別大,存儲I/O帶寬或者網絡傳輸帶寬遠遠小于系統內存大小,整個系統的性能就會極大下降。并且,當節點出錯的情況下,使用檢查點文件卷回或恢復到出錯前的狀態的時,需要從并行文件系統讀取整個檢查點文件到內存中,同樣會發生大量集中的I/O訪問或者網絡傳輸,同樣也會造成超級計算機的性能下降。因此,隨著超大規模計算機系統的發展,檢查點技術的性能成為非常嚴峻的問題。
現有技術的檢查點方法通常是基于操作系統提供的頁保護機制。該方法以頁大小作為進程狀態數據的分塊大小,這種方式會導致檢查點判斷進程狀態數據修改內容的粒度較大,并且基于頁保護機制的檢查點需要操作系統和硬件支持,該檢查點方法使用操作系統的寫時拷貝技術也會導致父子進程搶奪計算資源和內存資源。該方法沒有利用執行檢查點過程中的空閑計算資源,并且也沒有能有效利用并行文件系統的I/O帶寬,不能滿足在出錯情況下快速卷回和降低卷回的并行文件系統的I/O帶寬要求。
發明內容
本發明的目的在于克服上述現有技術的缺陷,提供一種基于檢查點的計算機的容錯方法,以縮短檢查點文件保存和卷回的時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;北京控制工程研究所,未經中國科學院計算技術研究所;北京控制工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710369325.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:陣列基板及其制作方法和顯示面板
- 下一篇:消防設備用的支腿組件





