[發明專利]基于在線學習的超級計算機結點故障主動容錯方法有效
| 申請號: | 201610040662.0 | 申請日: | 2016-01-21 |
| 公開(公告)號: | CN105718355B | 公開(公告)日: | 2018-02-16 |
| 發明(設計)人: | 蔣艷凰;盧宇彤;趙強利;周恩強;董勇;胡維;孫勤 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F11/14 |
| 代理公司: | 國防科技大學專利服務中心43202 | 代理人: | 郭敏 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 在線 學習 超級 計算機 結點 故障 主動 容錯 方法 | ||
技術領域
本發明主要涉及超級計算機系統的容錯方法,尤其指如何利用在線機器學習技術對超級計算機結點實施低開銷的主動容錯方法。
背景技術
超級計算機系統通過將眾多的計算部件結合起來并行執行同一計算任務,從而能夠大大減少大規模計算任務所需的執行時間。通常的超級計算機系統構成是一個或多個服務結點用于登錄管理,眾多的計算結點用于完成計算任務,服務結點和計算結點間通過監控管理網絡互相通信,監控管理網用于超級計算機系統的維護與管理。服務結點上部署有監控系統,能夠監控每個計算結點的運行情況;并部署有資源管理系統,用于為計算任務分配計算資源(如計算結點等)。計算結點間還通過高速互連網相連,高速互連網用于計算任務的進程間通信。在超級計算機系統上運行的計算任務多為并行應用程序,運行過程中通過產生若干進程分布在不同的計算結點上同時執行,這些進程間的通信多采用消息傳遞的方式。超級計算機系統的故障通常為Fail-Stop類型的故障,即在計算任務的執行過程中,一旦有故障發生,系統將終止相關計算任務的所有進程,其并行應用程序非正常退出。如果沒有容錯支持,一旦故障發生,前面的計算都前功盡棄,必須重新啟動相關計算任務,從頭開始執行。
應用需求的不斷增長推動著超級計算機軟硬件系統的不斷發展,隨著超級計算機系統規模日益龐大,眾多的組成部件、低電壓的工作模式、復雜的軟硬件結構等,使得超級計算機系統的平均無故障時間(Mean Time Between Failure,MTBF)越來越短,可靠性問題日益突出。如果沒有容錯技術的支持,運行時間長、并行規模大的計算任務無法順利完成。容錯成為提高超級計算機系統可用性,保證計算任務順利完成的重要方法。到目前為止,超級計算機系統采用的容錯方法一直是被動容錯,即在故障發生后對故障進行處理,使得計算任務能夠從某個點恢復并繼續運行。
系統級檢查點恢復(Checkpoint/Restart)是目前超級計算機系統采用的主流容錯方法,它是一種被動容錯方法,其主要思想是通過周期性的檢查點操作,為計算任務的每個進程保存全局一致的執行映像,并將映像保存到穩定介質上(如共享存儲系統)。一旦發生故障,則通過檢查點恢復操作從最近一次檢查點映像文件恢復該計算任務的運行,將計算損失減小到最近一次完成檢查點操作的時間點到故障發生時間點這段時間間隔內所作的計算,避免了從頭開始執行計算任務。檢查點恢復方法主要包括如下關鍵步驟:
(1)設置檢查點周期:為計算任務設置相鄰兩次檢查點操作之間的時間間隔。檢查點周期的具體值與計算任務的并行規模和超級計算機系統的平均無故障時間密切相關。在計算任務的執行過程中,通常由MPI(Message Passing Interface,消息傳遞接口)系統負責計算任務的各個進程之間的消息傳遞。為了保證長時間運行的計算任務能夠順利執行完畢,需要在MPI系統中為計算任務設定檢查點周期(即執行檢查點操作的時間間隔),并使得在平均無故障時間間隔內能夠執行多次檢查點操作;
(2)生成全局檢查點映像文件:一旦到達一個檢查點周期,MPI系統則啟動全局檢查點操作,通知計算任務中的每個進程需要執行檢查點操作,生成全局檢查點映像文件,并將其保存到指定的位置。全局檢查點操作的目標是保證每個進程生成的局部檢查點映像文件滿足全局一致性;
(3)每個進程生成局部檢查點映像文件:計算任務中的每個進程在本地執行單進程檢查點操作,生成本地進程的檢查點映像,并將檢查點映像文件保存到指定的位置;
(4)檢查點恢復操作:一旦故障發生,MPI系統從指定位置獲取計算任務的全局檢查點和所有進程的局部檢查點映像文件,將計算任務的所有進程從該檢查點處恢復執行。
系統級檢查點恢復方法是超級計算機系統采用的主要容錯方法,但是這種方法的容錯開銷很大,主要表現在如下幾個方面:
(1)存儲開銷大:采用系統級檢查點,每個進程均要產生本進程的檢查點映像文件,檢查點映像文件的內容包括:該進程的進程代碼段、數據段、用戶棧、上下文切換相關信息、活動文件信息、與信號有關的信息等,每個進程產生的檢查點映像文件規模較大,一般達到幾十MB至數百MB。為了保證容錯恢復時能夠獲取到每個進程的檢查點映像文件,這些映像文件通常保存到全局共享存儲系統中。因此每次檢查點操作,計算任務的所有進程將同時訪問全局共享存儲系統,導致系統的存儲開銷很大。
(2)通信開銷大:為了將檢查點映像文件保存到全局共享存儲系統中,各進程需要通過網絡將檢查點映像文件傳輸到全局共享存儲系統,因此執行檢查點操作會帶來很大的通信開銷;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610040662.0/2.html,轉載請聲明來源鉆瓜專利網。





