[發(fā)明專利]一種用于機群容錯的系統(tǒng)和方法有效
| 申請?zhí)枺?/td> | 200810211566.3 | 申請日: | 2008-09-19 |
| 公開(公告)號: | CN101377750A | 公開(公告)日: | 2009-03-04 |
| 發(fā)明(設(shè)計)人: | 霍志剛 | 申請(專利權(quán))人: | 中國科學院計算技術(shù)研究所 |
| 主分類號: | G06F11/00 | 分類號: | G06F11/00;G06F11/14 |
| 代理公司: | 北京律誠同業(yè)知識產(chǎn)權(quán)代理有限公司 | 代理人: | 梁揮;王金寶 |
| 地址: | 100080北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 機群 容錯 系統(tǒng) 方法 | ||
1.一種用于機群容錯的系統(tǒng),所述機群包括網(wǎng)絡(luò)連接的多個結(jié)點,其特征是,該系統(tǒng)包括:
檢查點服務(wù)器,其網(wǎng)絡(luò)連接到所述多個結(jié)點,用于收集并行應(yīng)用的所有進程的信息,根據(jù)進程信息,向結(jié)點發(fā)送監(jiān)控請求,并響應(yīng)來自結(jié)點的檢查點操作請求,執(zhí)行遠程檢查點切取操作,并將檢查點文件保存于檢查點文件服務(wù)器上;在檢查點切取操作完成后,執(zhí)行檢查點恢復(fù)操作;
檢查點文件服務(wù)器,其網(wǎng)絡(luò)連接到所述多個結(jié)點,用于存儲檢查點文件,并在進程恢復(fù)過程中提供檢查點文件訪問支持;
故障監(jiān)測模塊,位于所述結(jié)點上,用于根據(jù)所述監(jiān)控請求來監(jiān)測本地結(jié)點的操作系統(tǒng)的運行狀態(tài)和所述監(jiān)控請求指定進程的指定運行狀態(tài),以及所述監(jiān)控請求指定的硬件部件的指定狀態(tài),并在監(jiān)測到故障時向所述檢查點服務(wù)器發(fā)送檢查點操作請求和向被監(jiān)測的并行應(yīng)用的其他進程廣播通知該進程正在進行檢查點操作。
2.根據(jù)權(quán)利要求1所述的一種用于機群容錯的系統(tǒng),其特征是,所述檢查點服務(wù)器包括:
并行應(yīng)用進程管理器,用于在機群結(jié)點中加載并行應(yīng)用,并收集并行應(yīng)用的所有進程的信息;
并行應(yīng)用注冊管理器,用于注冊并行應(yīng)用的所有進程的信息,并根據(jù)進程信息,向結(jié)點發(fā)送監(jiān)控請求;
檢查點切取模塊,用于響應(yīng)來自結(jié)點的檢查點操作請求,執(zhí)行遠程檢查點切取操作,將檢查點文件保存于檢查點文件服務(wù)器中,并在檢查點切取操作完成后,將檢查點文件的位置和對應(yīng)進程在其并行應(yīng)用中的邏輯序號信息發(fā)送給所述并行應(yīng)用進程管理器;
所述并行應(yīng)用進程管理器還用于在收到所述檢查點文件的位置和對應(yīng)進程的邏輯序號信息后,執(zhí)行進程恢復(fù)操作。
3.根據(jù)權(quán)利要求1或2所述的一種用于機群容錯的系統(tǒng),其特征是,在檢查點服務(wù)器進行遠程檢查點切取過程中,通過遠程直接內(nèi)存訪問方式獲取出現(xiàn)故障的進程的所有狀態(tài)。
4.根據(jù)權(quán)利要求1或2所述的一種用于機群容錯的系統(tǒng),其特征是,所述結(jié)點包括:
用于通信及狀態(tài)監(jiān)控的協(xié)處理器;
其中所述協(xié)處理器包括通信系統(tǒng)檢查點模塊,該通信系統(tǒng)檢查點模塊用于實現(xiàn)通信設(shè)備的檢查點切取并將通信設(shè)備的檢查點文件保存到所述檢查點文件服務(wù)器上,以及根據(jù)所述通信設(shè)備的檢查點文件實現(xiàn)通信設(shè)備的斷點恢復(fù);
其中,所述故障監(jiān)測模塊運行在該協(xié)處理器上。
5.根據(jù)權(quán)利要求4所述的一種用于機群容錯的系統(tǒng),其特征是,所述協(xié)處理器上還包括:
遠程檢查點服務(wù)模塊,用于響應(yīng)來自所述檢查點服務(wù)器的讀取本地進程狀態(tài)、本地通信設(shè)備的狀態(tài)的請求,和響應(yīng)來自本地結(jié)點的故障監(jiān)測模塊的請求向檢查點服務(wù)器發(fā)出啟動檢查點操作的請求并向檢查點服務(wù)器發(fā)送啟動檢查點操作的請求。
6.根據(jù)權(quán)利要求1或2所述的一種用于機群容錯的系統(tǒng),其特征是,所述結(jié)點還包括:
主機方處理器,該主機方處理器包括內(nèi)核狀態(tài)監(jiān)控模塊和進程恢復(fù)模塊;
其中,當該所述內(nèi)核狀態(tài)監(jiān)控模塊監(jiān)測到操作系統(tǒng)內(nèi)核狀態(tài)出現(xiàn)故障時,向所述故障監(jiān)測模塊發(fā)送結(jié)點故障恢復(fù)請求;所述故障監(jiān)測模塊在接收到所述結(jié)點故障恢復(fù)請求后,向所述檢查點服務(wù)器發(fā)送檢查點操作請求;
所述進程恢復(fù)模塊用于接收并行應(yīng)用進程管理器發(fā)來的待恢復(fù)進程的檢查點文件的位置和邏輯序號信息,讀取檢查點文件,完成進程恢復(fù)過程。
7.一種用于機群容錯的方法,其特征是,包括如下步驟:
步驟S1,在檢查點服務(wù)器上注冊并行應(yīng)用并向故障監(jiān)測模塊發(fā)送結(jié)點監(jiān)控請求;
步驟S2:故障監(jiān)測模塊在收到監(jiān)控請求后開始監(jiān)測故障;
步驟S3,當故障監(jiān)測模塊監(jiān)測到故障時,向檢查點服務(wù)器發(fā)送檢查點操作請求,然后通過廣播將故障進程正在執(zhí)行檢查點操作這一事件通知被監(jiān)測應(yīng)用中的其它進程;
步驟S4:檢查點服務(wù)器接收到檢查點操作請求后執(zhí)行檢查點切取;
步驟S5:檢查點切取完成后,檢查點服務(wù)器執(zhí)行進程恢復(fù)。
8.根據(jù)權(quán)利要求7所述的用于機群容錯的方法,其特征是,在步驟S2中,所述的監(jiān)測故障的方法包括:
根據(jù)時鐘中斷計數(shù)超出預(yù)定范圍,判斷操作系統(tǒng)故障;
根據(jù)操作系統(tǒng)內(nèi)部接口調(diào)用失敗,判斷操作系統(tǒng)故障;
根據(jù)表征硬件狀態(tài)的參數(shù)超出預(yù)先設(shè)定的范圍,判斷硬件故障;
根據(jù)應(yīng)用進程或后臺服務(wù)進程遇到失敗的系統(tǒng)調(diào)用或不該收到的信號,判斷進程故障。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院計算技術(shù)研究所,未經(jīng)中國科學院計算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810211566.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種具有電子琴譜的音樂鋼琴
- 下一篇:顯示面板、顯示裝置
- 評價計算機機群系統(tǒng)可信性的方法
- 一種計算機機群系統(tǒng)及其作業(yè)管理方法
- 一種計算機機群網(wǎng)絡(luò)監(jiān)控系統(tǒng)采集卡
- 服務(wù)器機群的狀態(tài)檢測方法和裝置
- 一種風電機機群有功功率優(yōu)化分配裝置及其優(yōu)化分配方法
- 一種基于動態(tài)航跡的無人機群頻譜資源分配方法
- 無人機群能執(zhí)行任務(wù)率確定方法、裝置、設(shè)備、存儲介質(zhì)
- 一種農(nóng)機機群的故障處理方法、裝置、云端控制設(shè)備及農(nóng)機系統(tǒng)
- 基于量子退火算法的無人機通信網(wǎng)絡(luò)路由規(guī)劃方法
- 多處理機系統(tǒng)和用多處理機系統(tǒng)的磁盤控制器維護方法





