日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于在線學習的超級計算機結點故障主動容錯方法有效

專利信息
申請號: 201610040662.0 申請日: 2016-01-21
公開(公告)號: CN105718355B 公開(公告)日: 2018-02-16
發明(設計)人: 蔣艷凰;盧宇彤;趙強利;周恩強;董勇;胡維;孫勤 申請(專利權)人: 中國人民解放軍國防科學技術大學
主分類號: G06F11/30 分類號: G06F11/30;G06F11/14
代理公司: 國防科技大學專利服務中心43202 代理人: 郭敏
地址: 410073 湖*** 國省代碼: 湖南;43
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 在線 學習 超級 計算機 結點 故障 主動 容錯 方法
【說明書】:

技術領域

發明主要涉及超級計算機系統的容錯方法,尤其指如何利用在線機器學習技術對超級計算機結點實施低開銷的主動容錯方法。

背景技術

超級計算機系統通過將眾多的計算部件結合起來并行執行同一計算任務,從而能夠大大減少大規模計算任務所需的執行時間。通常的超級計算機系統構成是一個或多個服務結點用于登錄管理,眾多的計算結點用于完成計算任務,服務結點和計算結點間通過監控管理網絡互相通信,監控管理網用于超級計算機系統的維護與管理。服務結點上部署有監控系統,能夠監控每個計算結點的運行情況;并部署有資源管理系統,用于為計算任務分配計算資源(如計算結點等)。計算結點間還通過高速互連網相連,高速互連網用于計算任務的進程間通信。在超級計算機系統上運行的計算任務多為并行應用程序,運行過程中通過產生若干進程分布在不同的計算結點上同時執行,這些進程間的通信多采用消息傳遞的方式。超級計算機系統的故障通常為Fail-Stop類型的故障,即在計算任務的執行過程中,一旦有故障發生,系統將終止相關計算任務的所有進程,其并行應用程序非正常退出。如果沒有容錯支持,一旦故障發生,前面的計算都前功盡棄,必須重新啟動相關計算任務,從頭開始執行。

應用需求的不斷增長推動著超級計算機軟硬件系統的不斷發展,隨著超級計算機系統規模日益龐大,眾多的組成部件、低電壓的工作模式、復雜的軟硬件結構等,使得超級計算機系統的平均無故障時間(Mean Time Between Failure,MTBF)越來越短,可靠性問題日益突出。如果沒有容錯技術的支持,運行時間長、并行規模大的計算任務無法順利完成。容錯成為提高超級計算機系統可用性,保證計算任務順利完成的重要方法。到目前為止,超級計算機系統采用的容錯方法一直是被動容錯,即在故障發生后對故障進行處理,使得計算任務能夠從某個點恢復并繼續運行。

系統級檢查點恢復(Checkpoint/Restart)是目前超級計算機系統采用的主流容錯方法,它是一種被動容錯方法,其主要思想是通過周期性的檢查點操作,為計算任務的每個進程保存全局一致的執行映像,并將映像保存到穩定介質上(如共享存儲系統)。一旦發生故障,則通過檢查點恢復操作從最近一次檢查點映像文件恢復該計算任務的運行,將計算損失減小到最近一次完成檢查點操作的時間點到故障發生時間點這段時間間隔內所作的計算,避免了從頭開始執行計算任務。檢查點恢復方法主要包括如下關鍵步驟:

(1)設置檢查點周期:為計算任務設置相鄰兩次檢查點操作之間的時間間隔。檢查點周期的具體值與計算任務的并行規模和超級計算機系統的平均無故障時間密切相關。在計算任務的執行過程中,通常由MPI(Message Passing Interface,消息傳遞接口)系統負責計算任務的各個進程之間的消息傳遞。為了保證長時間運行的計算任務能夠順利執行完畢,需要在MPI系統中為計算任務設定檢查點周期(即執行檢查點操作的時間間隔),并使得在平均無故障時間間隔內能夠執行多次檢查點操作;

(2)生成全局檢查點映像文件:一旦到達一個檢查點周期,MPI系統則啟動全局檢查點操作,通知計算任務中的每個進程需要執行檢查點操作,生成全局檢查點映像文件,并將其保存到指定的位置。全局檢查點操作的目標是保證每個進程生成的局部檢查點映像文件滿足全局一致性;

(3)每個進程生成局部檢查點映像文件:計算任務中的每個進程在本地執行單進程檢查點操作,生成本地進程的檢查點映像,并將檢查點映像文件保存到指定的位置;

(4)檢查點恢復操作:一旦故障發生,MPI系統從指定位置獲取計算任務的全局檢查點和所有進程的局部檢查點映像文件,將計算任務的所有進程從該檢查點處恢復執行。

系統級檢查點恢復方法是超級計算機系統采用的主要容錯方法,但是這種方法的容錯開銷很大,主要表現在如下幾個方面:

(1)存儲開銷大:采用系統級檢查點,每個進程均要產生本進程的檢查點映像文件,檢查點映像文件的內容包括:該進程的進程代碼段、數據段、用戶棧、上下文切換相關信息、活動文件信息、與信號有關的信息等,每個進程產生的檢查點映像文件規模較大,一般達到幾十MB至數百MB。為了保證容錯恢復時能夠獲取到每個進程的檢查點映像文件,這些映像文件通常保存到全局共享存儲系統中。因此每次檢查點操作,計算任務的所有進程將同時訪問全局共享存儲系統,導致系統的存儲開銷很大。

(2)通信開銷大:為了將檢查點映像文件保存到全局共享存儲系統中,各進程需要通過網絡將檢查點映像文件傳輸到全局共享存儲系統,因此執行檢查點操作會帶來很大的通信開銷;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201610040662.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 免费**毛片| 97精品久久人人爽人人爽| 久久精品一二三四| 国产精品6699| 大bbw大bbw巨大bbb| 亚洲精品国产精品国自| 国产精品一卡二卡在线观看| 97国产婷婷综合在线视频,| 欧美一区二区色| 狠狠色狠狠色综合久久第一次| 免费毛片a| 久久免费视频一区| 国产一区在线免费观看| 国产精品香蕉在线的人| 欧美精品粉嫩高潮一区二区| 亚洲精品日日夜夜| 免费观看又色又爽又刺激的视频 | 国产88在线观看入口| 亚洲国产精品日韩av不卡在线 | 欧美精品日韩| 日韩精品免费一区二区中文字幕| 99久精品视频| 亚洲欧美日韩精品在线观看| 午夜欧美影院| 麻豆天堂网| 欧美一级久久精品| 99国产午夜精品一区二区天美| 国产视频二区| 中文字幕日韩精品在线| 日韩亚洲精品在线| 国产一区二区三区乱码| 国产精品一区不卡| 99热久久精品免费精品| 久久精品国语| 国产91在| 日本边做饭边被躁bd在线看| 中文字幕一区二区三区乱码视频| 日日夜夜亚洲精品| 国产91精品一区| 欧美国产一二三区| 91精品国产九九九久久久亚洲| 好吊妞国产欧美日韩软件大全| 欧美人妖一区二区三区| 中文字幕1区2区3区| 中文字幕日韩一区二区| 欧美激情片一区二区| 国内少妇偷人精品视频免费| 国产欧美一区二区三区不卡高清| 久免费看少妇高潮a级特黄按摩 | 亚洲少妇中文字幕| 亚洲精品456| 99国产精品久久久久99打野战| 国产高清精品一区二区| 亚洲精品456| 国产91丝袜在线熟| 麻豆国产一区二区三区| 亚洲国产精品一区二区久久hs| 久久福利视频网| 国内久久精品视频| 午夜免费av电影| 香港三日三级少妇三级99| 中文字幕日韩有码| 亚洲精品久久久久中文字幕欢迎你 | 国产69精品久久久久男男系列| 久久国产麻豆| 性精品18videosex欧美| 国产999精品视频| 中文字幕一二三四五区| 色综合久久精品| 日韩午夜电影在线| 国产午夜三级一区二区三| 国产美女三级无套内谢| 午夜电影天堂| 午夜爱爱电影| 天堂av一区二区三区| 国产伦精品一区二区三区免| 国内精品久久久久久久星辰影视| 国产精品一区二区三区在线看| 久久国产精品免费视频| 久久精视频| 99精品欧美一区二区| 综合国产一区|