[發明專利]一種計算機集群系統的故障處理方法有效
| 申請號: | 201310548737.2 | 申請日: | 2013-11-07 |
| 公開(公告)號: | CN103607297A | 公開(公告)日: | 2014-02-26 |
| 發明(設計)人: | 陳浩;趙亞萍 | 申請(專利權)人: | 上海愛數軟件有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 王民盛;王麗琴 |
| 地址: | 200072 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 計算機 集群 系統 故障 處理 方法 | ||
1.一種計算機集群系統的故障處理方法,其特征在于,包括:
A、選取計算機集群系統中至少兩個節點設置為承擔故障處理以及管理計算機集群系統的管理節點,所述管理節點中的一個作為主節點,其余作為備節點;
B、計算機集群系統中每一個節點的底層監控服務模塊監控本節點的運行狀態以及軟硬件負荷情況,并判斷是否出現故障,若是,底層監控服務模塊通知消息中間件服務模塊向主節點的管理中心服務模塊發送故障消息;
C、主節點的管理中心服務模塊根據所述故障消息進行故障處理。
2.根據權利要求1所述的方法,其特征在于,所述故障為節點的內存、CPU或系統盤使用率超過預先規定的閾值;
步驟C為:主節點的管理中心服務模塊將故障內容上報給維護人員。
3.根據權利要求1所述的方法,其特征在于,所述故障為硬件故障;
步驟C為:主節點的管理中心服務模塊將出現故障的硬件標識通知管理員,并將故障設備從計算機集群系統中剔除。
4.根據權利要求1所述的方法,其特征在于,發生故障的節點為普通節點,故障為軟件故障;
步驟C為:主節點的管理中心服務模塊以已定義的狀態值來標識該節點的狀態,并將具體故障信息通知維護人員。
5.根據權利要求1所述的方法,其特征在于,發生故障的節點為主節點,故障為軟件故障;
步驟C為:從備節點中選舉出一個新的主節點接替原主節點的工作。
6.根據權利要求1至5任一項所述的方法,其特征在于,該方法進一步包括:
計算機集群系統通過心跳機制檢測到有節點處于了離線狀態,若該節點為主節點,從備節點中選舉出一個新的主節點接替原主節點的工作后,將原主節點進入老化;若該節點為普通節點則直接進入老化;
老化期過后,從計算機集群系統中刪除該節點所有信息。
7.根據權利要求6所述的方法,其特征在于,所述心跳機制為:計算機集群系統的各節點統一將心跳消息發送到主節點所在的消息中間件模塊,由主節點和備節點收取并管理心跳消息,如果所收到的最后一條心跳消息中的時間戳距離當前的時間超出預先設定的閾值還沒有收到新的心跳消息,則認為發出該心跳消息的節點離線。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海愛數軟件有限公司,未經上海愛數軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310548737.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種公共汽車速度控制系統
- 下一篇:一種防丟筆帽水彩筆





