[發(fā)明專利]基于在線學(xué)習(xí)的超級計算機結(jié)點故障主動容錯方法有效
申請?zhí)枺?/td> | 201610040662.0 | 申請日: | 2016-01-21 |
公開(公告)號: | CN105718355B | 公開(公告)日: | 2018-02-16 |
發(fā)明(設(shè)計)人: | 蔣艷凰;盧宇彤;趙強利;周恩強;董勇;胡維;孫勤 | 申請(專利權(quán))人: | 中國人民解放軍國防科學(xué)技術(shù)大學(xué) |
主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F11/14 |
代理公司: | 國防科技大學(xué)專利服務(wù)中心43202 | 代理人: | 郭敏 |
地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 基于 在線 學(xué)習(xí) 超級 計算機 結(jié)點 故障 主動 容錯 方法 | ||
1.一種基于在線學(xué)習(xí)的超級計算機結(jié)點故障主動容錯方法,其特征在于包括以下步驟:
第一步:構(gòu)建超級計算機系統(tǒng):構(gòu)建具有一個服務(wù)結(jié)點和m個計算結(jié)點的超級計算機系統(tǒng),計算結(jié)點的編號分別為C1,C2,…,Cm,服務(wù)結(jié)點和m個計算結(jié)點間通過監(jiān)控管理網(wǎng)絡(luò)互連;在服務(wù)結(jié)點上部署監(jiān)控系統(tǒng)與資源管理系統(tǒng),監(jiān)控系統(tǒng)負(fù)責(zé)監(jiān)控各計算結(jié)點的運行情況,資源管理系統(tǒng)負(fù)責(zé)為計算任務(wù)分配計算資源;
第二步:系統(tǒng)啟動并進行參數(shù)初始化:
2.1服務(wù)結(jié)點啟動,并進行參數(shù)初始化:
2.1.1令運行正常的計算結(jié)點集合NS和處于故障狀態(tài)的計算結(jié)點集合FS為空集;
2.1.2從監(jiān)控系統(tǒng)獲取運行正常的計算結(jié)點,將運行正常的計算結(jié)點放到集合NS;
2.1.3從監(jiān)控系統(tǒng)獲取處于故障狀態(tài)的計算結(jié)點,將處于故障狀態(tài)的計算結(jié)點放到集合FS;
2.1.4設(shè)定主動容錯時間間隔Δ;
2.1.5初始化故障預(yù)測器:Ψ=NULL;
2.1.6初始化遷移結(jié)點請求隊列RQ為空,RQ用于接收計算結(jié)點發(fā)送過來的申請遷移結(jié)點的請求;
2.1.7為NS中的每個計算結(jié)點分配備份結(jié)點,將分配結(jié)果發(fā)送給NS中的計算結(jié)點;
2.2計算結(jié)點啟動,相互獨立并行地完成參數(shù)初始化,其中計算結(jié)點Ci執(zhí)行如下步驟,Ci∈NS:
2.2.1設(shè)定即將故障的時間段長度δ,在故障預(yù)測過程中,若預(yù)測結(jié)果小于等于δ,表示計算結(jié)點即將故障;若預(yù)測結(jié)果大于δ,則表示計算結(jié)點的狀態(tài)正常;
2.2.2設(shè)定計算結(jié)點狀態(tài)數(shù)據(jù)隊列的長度Len;
2.2.3創(chuàng)建計算結(jié)點狀態(tài)數(shù)據(jù)隊列Q,用于保存計算結(jié)點的歷史狀態(tài)數(shù)據(jù),隊列Q中每條記錄的內(nèi)容形式為((s1,s2,…,sn),t),表示計算結(jié)點在t時刻的狀態(tài)為(s1,s2,…,sn),其中si(1≤i≤n)為一個狀態(tài)變量,n為狀態(tài)變量的個數(shù);
2.2.4從服務(wù)結(jié)點獲取計算結(jié)點Ci的備份結(jié)點,記備份結(jié)點的編號為CiB;
2.2.5設(shè)定主動容錯時間間隔Δ;
第三步:集中式在線故障行為學(xué)習(xí):
3.1服務(wù)結(jié)點從監(jiān)控系統(tǒng)獲得m個計算結(jié)點的最新運行情況,對于新的故障結(jié)點,從它們的備份計算結(jié)點得到它們的歷史狀態(tài)數(shù)據(jù),并對這些數(shù)據(jù)進行增量式的在線學(xué)習(xí),獲得新的故障預(yù)測器:
3.1.1檢測集合FS中各計算結(jié)點的運行情況:令FS中已經(jīng)正常運行的計算結(jié)點集合為AS,將AS中的結(jié)點從故障結(jié)點集FS中刪除,然后將AS中的結(jié)點加入正常結(jié)點集NS中,即:FS=FS-AS,NS=NS∪AS;
3.1.2檢測集合NS中各計算結(jié)點的運行情況:令NS中已經(jīng)處于故障狀態(tài)的計算結(jié)點集合為BS,將BS中的結(jié)點從NS中刪除,然后將BS中的結(jié)點加入故障結(jié)點集FS中,即:NS=NS-BS,F(xiàn)S=FS∪BS;如果轉(zhuǎn)第四步;否則執(zhí)行第3.1.3步;
3.1.3為BS中的每個故障結(jié)點分配一個備用結(jié)點,令BS對應(yīng)的備用結(jié)點集合為CS,將BS與CS發(fā)送至NS中的所有計算結(jié)點;
3.1.4接收BS中各故障結(jié)點的備份結(jié)點發(fā)送過來的故障結(jié)點的歷史狀態(tài)數(shù)據(jù),生成增量樣本集TD;對接收到的歷史狀態(tài)記錄((s1,s2,…,sn),t),其對應(yīng)在TD中的樣本為((s1,s2,…,sn),τ),其中(s1,s2,…,sn)為故障計算結(jié)點在t時刻的狀態(tài),τ為該計算結(jié)點在狀態(tài)為(s1,s2,…,sn)的t時刻距離后續(xù)實際故障發(fā)生時刻的時間間隔;
3.1.5采用集中式在線學(xué)習(xí)方法對增量樣本集TD中的樣本數(shù)據(jù)進行學(xué)習(xí),更新故障預(yù)測器:
Ψ=Learn(TD,Ψ)
其中函數(shù)Learn(TD,Ψ)表示在已有的學(xué)習(xí)結(jié)果Ψ的基礎(chǔ)上,利用數(shù)據(jù)集TD對Ψ進行增量式在線學(xué)習(xí),若函數(shù)Learn(TD,Ψ)中的Ψ滿足Ψ=NULL,則表示直接對數(shù)據(jù)集TD進行學(xué)習(xí),Learn函數(shù)是任意已有的增量式在線學(xué)習(xí)算法的具體實現(xiàn);
3.1.6將更新后的預(yù)測器Ψ發(fā)送至各個計算結(jié)點;
3.2NS中的所有計算結(jié)點并行地從服務(wù)結(jié)點接收新的故障結(jié)點集及其對應(yīng)的備用結(jié)點集,新的故障結(jié)點的備份結(jié)點將這些故障結(jié)點的歷史狀態(tài)數(shù)據(jù)發(fā)送給服務(wù)結(jié)點,并對歷史狀態(tài)數(shù)據(jù)進行更新與備份;然后從服務(wù)結(jié)點接收新的故障預(yù)測器Ψ;
第四步:分布式故障預(yù)測與進程遷移:
4.1NS中的各計算結(jié)點并行地獲得自身的運行狀態(tài)信息,利用故障預(yù)測器進行故障預(yù)測和預(yù)測結(jié)果處理,計算結(jié)點Ci執(zhí)行如下步驟:
4.1.1獲取本地結(jié)點Ci的最新狀態(tài)記錄(S,t),其中S為結(jié)點Ci的當(dāng)前運行狀態(tài),內(nèi)容用一個狀態(tài)向量表示,即S=(s1,s2,…,sn),t為獲取狀態(tài)S的時間;
4.1.2將狀態(tài)記錄(S,t)保存在本地結(jié)點上:將當(dāng)前狀態(tài)記錄(S,t)保存到本地結(jié)點Ci的狀態(tài)隊列Q中,若保存的狀態(tài)記錄的數(shù)目超過隊列長度Len,則在[0,Len-1]區(qū)間內(nèi)取一個隨機數(shù)z,按進入隊列Q的順序刪除第z個進入隊列Q中的狀態(tài)記錄;
4.1.3令本地結(jié)點Ci的備份結(jié)點為CiB,將狀態(tài)數(shù)據(jù)隊列Q備份到結(jié)點CiB上;
4.1.4利用故障預(yù)測器對本地結(jié)點Ci的狀態(tài)S進行故障預(yù)測,預(yù)測結(jié)果PR=Predict(Ψ,S),Predict(Ψ,S)函數(shù)是指利用故障預(yù)測器Ψ對狀態(tài)S進行預(yù)測;如果預(yù)測結(jié)果PR>δ,則表明結(jié)點狀態(tài)正常,轉(zhuǎn)第五步;否則表明本地結(jié)點即將故障,執(zhí)行第4.1.5步;
4.1.5如果Ci上無計算任務(wù),則轉(zhuǎn)第五步;如果有計算任務(wù)在運行,則轉(zhuǎn)第4.1.6步;
4.1.6計算結(jié)點Ci向服務(wù)結(jié)點發(fā)送申請遷移結(jié)點的請求;
4.1.7從服務(wù)結(jié)點接收遷移結(jié)點的標(biāo)識號Cr;
4.1.8實施進程遷移,將在本地結(jié)點上運行的計算任務(wù)的應(yīng)用進程遷移至結(jié)點Cr上運行;;
4.2服務(wù)結(jié)點接收來自計算結(jié)點的申請遷移結(jié)點的請求,根據(jù)請求分配遷移結(jié)點,并將分配的遷移結(jié)點標(biāo)識號發(fā)送給提交申請的計算結(jié)點:
4.2.1檢測申請遷移結(jié)點的請求隊列RQ,如果請求隊列為空,則轉(zhuǎn)第五步;如果請求隊列不為空,則轉(zhuǎn)第4.2.2步;
4.2.2從請求隊列RQ中取出最先進入隊列中的請求,若其為計算結(jié)點Ci發(fā)送來請求,則為計算結(jié)點Ci分配遷移結(jié)點Cr;并將遷移結(jié)點Cr的標(biāo)識號發(fā)送給提出申請的計算結(jié)點Ci,然后轉(zhuǎn)4.2.1步;
第五步:服務(wù)結(jié)點與計算結(jié)點均睡眠等待規(guī)定的主動容錯時間間隔Δ,然后轉(zhuǎn)第三步,繼續(xù)新一輪的主動容錯過程。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科學(xué)技術(shù)大學(xué),未經(jīng)中國人民解放軍國防科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610040662.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于呈現(xiàn)在線實體在線狀態(tài)的系統(tǒng)和方法
- 提供web服務(wù)接入的在線系統(tǒng)和方法
- 定制在線圖標(biāo)
- 一種水質(zhì)在線檢測預(yù)處理裝置
- 在線測試學(xué)習(xí)方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- 一種在線文檔的分頁方法、裝置、設(shè)備以及可讀介質(zhì)
- 一種基于web在線學(xué)習(xí)的資源訪問平臺
- 一種在線學(xué)習(xí)系統(tǒng)
- 在線文檔提交方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 空調(diào)冷媒量確定方法、系統(tǒng)和可讀存儲介質(zhì)
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)