[發明專利]基于檢查點的計算機的容錯方法有效
| 申請號: | 201710369325.0 | 申請日: | 2017-05-23 |
| 公開(公告)號: | CN107193692B | 公開(公告)日: | 2020-01-21 |
| 發明(設計)人: | 嚴明玉;張志敏;吳軍;龔健;張浩;孫凝暉 | 申請(專利權)人: | 中國科學院計算技術研究所;北京控制工程研究所 |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14 |
| 代理公司: | 11280 北京泛華偉業知識產權代理有限公司 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢查點 分塊 用戶進程 計算資源 保存 空閑 并行文件系統 超級計算機 進程狀態 計算機 出錯 帶寬 恢復 | ||
1.一種基于檢查點的計算機的容錯方法,包括以下步驟:
步驟1:在判斷為執行檢查點時,暫停用戶進程;
步驟2:利用計算機中空閑的計算資源對所述用戶進程的進程狀態數據進行分塊并計算每個分塊的hash值,以確定需要保存的分塊;
步驟3:在計算分塊的hash值的過程中,將已經確定的需要保存的分塊和相應的hash值進行保存,以形成用于恢復出錯的用戶進程的檢查點文件,其中通過RDMA將所述需要保存的分塊和相應的hash值保存至計算機的并行文件系統中;
其中,在確定需要保存的分塊完成之后,如果存在未進行保存的剩余分塊,則將所述剩余分塊分成兩部分,其中第一部分被復制到內存中,以用于在啟動所述用戶進程之后寫入到所述并行文件系統中,第二部分被直接保存至所述并行文件系統中。
2.根據權利要求1所述的方法,其中,所述需要保存的分塊是相對于前一次執行檢查點時被修改的分塊。
3.根據權利要求1所述的方法,其中,所述確定需要保存的分塊包括:
將每個分塊的所計算的hash值與在前一次執行檢查點時該分塊的hash值進行比較,如果不同,則將該分塊確定為需要保存的分塊。
4.根據權利要求1所述的方法,其中,所述第一部分占所述剩余分塊的比例為a/(a+1),所述第二部分占所述剩余分塊的比例為1/(a+1),其中,內存復制速度和并行文件系統的保存速度比是a:1。
5.根據權利要求1所述的方法,還包括在存在出錯用戶進程的情況下,利用所述檢查點文件卷回出錯的用戶進程。
6.根據權利要求5所述的方法,還包括利用出錯的用戶進程的進程狀態數據的分塊的hash值判斷被修改的分塊,并將所述被修改的分塊替換為所述檢查點文件中的相應分塊。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其中,該程序被處理器執行時實現根據權利要求1至6中任一項所述方法的步驟。
8.一種計算機設備,包括存儲器和處理器,在所述存儲器上存儲有能夠在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1至6中任一項所述的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;北京控制工程研究所,未經中國科學院計算技術研究所;北京控制工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710369325.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:陣列基板及其制作方法和顯示面板
- 下一篇:消防設備用的支腿組件





