日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于檢查點的計算機的容錯方法有效

專利信息
申請號: 201710369325.0 申請日: 2017-05-23
公開(公告)號: CN107193692B 公開(公告)日: 2020-01-21
發明(設計)人: 嚴明玉;張志敏;吳軍;龔健;張浩;孫凝暉 申請(專利權)人: 中國科學院計算技術研究所;北京控制工程研究所
主分類號: G06F11/14 分類號: G06F11/14
代理公司: 11280 北京泛華偉業知識產權代理有限公司 代理人: 王勇
地址: 100190 北*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 檢查點 分塊 用戶進程 計算資源 保存 空閑 并行文件系統 超級計算機 進程狀態 計算機 出錯 帶寬 恢復
【說明書】:

發明提供一種基于檢查點的計算機的容錯方法。該方法包括:在判斷為執行檢查點時,暫停用戶進程;利用計算機中空閑的計算資源對所述用戶進程的進程狀態數據進行分塊并計算每個分塊的hash值,以確定需要保存的分塊;在計算分塊的hash值的過程中,將已經確定的需要保存的分塊和相應的hash值進行保存,以形成用于恢復出錯的用戶進程的檢查點文件。利用本發明的方法能夠有效的利用超級計算機中空閑計算資源和并行文件系統的I/O帶寬,從而縮短執行檢查點和檢查點卷回的時間。

技術領域

本發明涉及計算機技術領域,尤其涉及一種基于檢查點的面向計算機(特別是超級計算機)的容錯方法。

背景技術

隨著信息技術的發展,超級計算機的節點和處理器數目在持續增加,性能也在呈倍增加,然而,據統計,整個超級計算機系統的平均故障間隔時間(MTBF,Mean TimeBetween Failure)卻減少到了只有幾個小時。例如,中國的天河2號超級計算機由16000個節點組成,每個節點有2顆基于Ivy Bridge-E Xeon E5 2692處理器和3個Xeon Phi協同處理器,累計共有32000顆Ivy Bridge處理器和48000個Xeon Phi協同處理器,總計有312萬個計算核心。假如天河2號超級計算機中的每個處理器的MTBF是876000小時(100年),那么整個天河二號的MTBF是876000/(48000+32000)=8.76個小時。而且,內存容量的增加也會導致系統出錯概率升高,超大規模計算機系統每1到3個小時就會出現軟件或者硬件錯誤。在未來的10年間,CPU和內存的短暫性錯誤會增加30倍,因此,對于超大規模計算機系統,保證其可靠性越發重要。

目前,基于檢查點的容錯技術是保證大規模計算機系統可靠性的主要技術,該技術將正在運行的進程的狀態數據保存到永久存儲中,然后在必要的時候使用保存的狀態數據將當前的進程狀態卷回到執行檢查點的時刻,被保存的進程狀態數據稱為檢查點文件。檢查點技術的開支主要包括保證所有進程處于檢查點全局一致狀態的時間、將龐大的檢查點文件保存到永久存儲中的時間和檢查點的設置頻率等。檢查點文件越大,檢查點設置頻率越高,檢查點技術的開支就越大。大規模計算機系統會由于周期性地執行檢查點導致性能下降超過50%并且額外增加80%的I/O訪問。例如,將由128000個處理器組成的BlueGene/L超級計算機中所有RAM的數據(1.6PB)保存到并行文件系統需要大約20分鐘的時間。隨著計算機系統的規模增加,使用的部件增多,整個系統的MTBF會急劇降低,系統需要更頻繁地執行檢查點。檢查點的時間開支將會主導用戶程序的執行時間,導致計算機系統的性能進一步下降。

此外,在當前的大規模計算機系統中,在執行檢查點時,由于完整的檢查點文件能達到PB級別的大小,這些檢查點文件通常被寫到永久存儲中,例如,本地磁盤或者RAID5設備等,甚至通過網絡發送到遠程存儲設備上,會造成大量集中的I/O訪問或者網絡傳輸。而且,在執行檢查點過程中,大部分計算資源處于空閑狀態。由于檢查點文件特別大,存儲I/O帶寬或者網絡傳輸帶寬遠遠小于系統內存大小,整個系統的性能就會極大下降。并且,當節點出錯的情況下,使用檢查點文件卷回或恢復到出錯前的狀態的時,需要從并行文件系統讀取整個檢查點文件到內存中,同樣會發生大量集中的I/O訪問或者網絡傳輸,同樣也會造成超級計算機的性能下降。因此,隨著超大規模計算機系統的發展,檢查點技術的性能成為非常嚴峻的問題。

現有技術的檢查點方法通常是基于操作系統提供的頁保護機制。該方法以頁大小作為進程狀態數據的分塊大小,這種方式會導致檢查點判斷進程狀態數據修改內容的粒度較大,并且基于頁保護機制的檢查點需要操作系統和硬件支持,該檢查點方法使用操作系統的寫時拷貝技術也會導致父子進程搶奪計算資源和內存資源。該方法沒有利用執行檢查點過程中的空閑計算資源,并且也沒有能有效利用并行文件系統的I/O帶寬,不能滿足在出錯情況下快速卷回和降低卷回的并行文件系統的I/O帶寬要求。

發明內容

本發明的目的在于克服上述現有技術的缺陷,提供一種基于檢查點的計算機的容錯方法,以縮短檢查點文件保存和卷回的時間。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;北京控制工程研究所,未經中國科學院計算技術研究所;北京控制工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710369325.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 日韩精品一区二区亚洲 | 91av中文字幕| 国产视频一区二区三区四区| 精品国产一区二区三区四区vr| 69久久夜色精品国产69–| 日韩精品久久久久久久酒店| 日韩av三区| 国产一区二区电影在线观看| 精品国产仑片一区二区三区| 国产精品久久亚洲7777| 国产一级一区二区| 日本亚洲国产精品| 真实的国产乱xxxx在线91| 国产精品九九九九九| 销魂美女一区二区| 久久久久亚洲| 亚洲伊人久久影院| 国产欧美一区二区三区免费看| www.午夜av| 亚洲va欧美va国产综合先锋| 91精品视频一区二区| 农村妇女精品一二区| 国产精品综合在线| 96国产精品视频| 日韩一区免费在线观看| 视频一区二区三区中文字幕| 精品国产乱码久久久久久老虎| 午夜电影一区| 亚洲精品国产久| 国产一区日韩在线| 国产一区第一页| 国产精品久久久久99| 香港日本韩国三级少妇在线观看| 91福利视频免费观看| 国产丝袜在线精品丝袜91| 久久精品国语| 狠狠色狠狠色综合日日五| 欧美一区二区三区激情视频| 亚洲精品国产setv| 电影91久久久| 午夜免费av电影| 国产一级片子| 国产精品乱码久久久久久久久 | 久久久99精品国产一区二区三区| 国产精品久久久久免费a∨大胸| 国产欧美精品久久| 久久国产麻豆| 一区二区在线视频免费观看| 91麻豆精品国产91久久久资源速度 | 国产.高清,露脸,对白| 国产精品一区二区三| 麻豆国产一区二区三区 | 国产亚洲精品久久yy50| 午夜诱惑影院| 大伊人av| 国产一a在一片一级在一片| 伊人av中文av狼人av| 中文乱码字幕永久永久电影| sb少妇高潮二区久久久久| 蜜臀久久99静品久久久久久| 99国精视频一区一区一三| 亚洲欧美精品suv| 68精品国产免费久久久久久婷婷| 久免费看少妇高潮a级特黄按摩| 亚洲视频h| 精品国产一区二| 艳妇荡乳欲伦2| 国产在线精品二区| 精品一区二区三区中文字幕| 5g影院天天爽入口入口| aaaaa国产欧美一区二区| 91精品啪在线观看国产线免费| 国产农村妇女精品一区二区 | 综合国产一区| 日韩一区国产| 中文字幕天天躁日日躁狠狠躁免费| 欧美精品日韩精品| 狠狠插狠狠干| 91精品福利观看| 性欧美激情日韩精品七区| 国产经典一区二区三区| 午夜激情影院|