[發明專利]一種計算機集群系統的故障處理方法有效
| 申請號: | 201310548737.2 | 申請日: | 2013-11-07 |
| 公開(公告)號: | CN103607297A | 公開(公告)日: | 2014-02-26 |
| 發明(設計)人: | 陳浩;趙亞萍 | 申請(專利權)人: | 上海愛數軟件有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 王民盛;王麗琴 |
| 地址: | 200072 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 計算機 集群 系統 故障 處理 方法 | ||
技術領域
本申請涉及計算機技術,特別涉及計算機集群系統,尤其涉及一種計算機集群系統的故障處理方法。
背景技術
隨著信息化技術的推進,無論是企業還是其他組織機構都越來越依賴于計算機系統。伴隨著數據量的急劇膨脹,單個計算機已經無法滿足其需要,若使用超級計算機又極大的增大了計算機的成本,在這種情況下,計算機集群技術應運而生。
計算機集群系統由一組松散集成的計算機的軟件或硬件連接起來,高度緊密地協作完成計算工作。組成計算機集群系統的多臺計算機設備從邏輯上可以被看作是一臺計算機。計算機集群系統中的單個計算機通常稱為節點,計算機集群系統可以通過局域網連接,也支持其它的連接方式。計算機集群系統通常用來改進單個計算機的計算速度和數據流的負載均衡。計算機集群系統以其極快的計算速度和低廉的價格,受到廣泛地青睞,并得到迅速普及。
計算機集群系統的節點數量從幾臺到幾百臺甚至上千臺不等,因此當計算機集群系統中的一個或多個節點發生故障時,計算機集群系統的計算速度通常會受到影響,甚至導致計算機集群系統中的所有節點都無法正常使用。因此對于使用人員來說,如何保證計算機集群系統中的任何一個節點發生故障時,計算機集群系統整體上依然可用,并且不影響計算速度則成為提升工作效率和創造價值的關鍵。
對于處理計算機集群系統中的故障,通常方法是維護人員進入機房在計算機集群系統中的多臺節點中查找故障機器,然后確定機器的故障原因,再進行維護工作,當節點的數量增加時可能需要增加維護人員的數量和工作量,不僅成本開支較高,而且工作效率很低。
發明內容
本申請提供了一種計算機集群系統的故障處理方法,能夠在不需要人工干預的條件下實現計算機集群系統故障的自動處理功能。
本申請實施例提供的一種計算機集群系統的故障處理方法,包括:
A、選取計算機集群系統中至少兩個節點設置為承擔故障處理以及管理計算機集群系統的管理節點,所述管理節點中的一個作為主節點,其余作為備節點;
B、計算機集群系統中每一個節點的底層監控服務模塊監控本節點的運行狀態以及軟硬件負荷情況,并判斷是否出現故障,若是,底層監控服務模塊通知消息中間件服務模塊向主節點的管理中心服務模塊發送故障消息;
C、主節點的管理中心服務模塊根據所述故障消息進行故障處理。
較佳地,所述故障為節點的內存、CPU或系統盤使用率超過預先規定的閾值;
步驟C為:主節點的管理中心服務模塊將故障內容上報給維護人員。
較佳地,所述故障為硬件故障;
步驟C為:主節點的管理中心服務模塊將出現故障的硬件標識通知管理員,并將故障設備從計算機集群系統中剔除。
較佳地,發生故障的節點為普通節點,故障為軟件故障;
步驟C為:主節點的管理中心服務模塊以已定義的狀態值來標識該節點的狀態,并將具體故障信息通知維護人員。
較佳地,發生故障的節點為主節點,故障為軟件故障;
步驟C為:從備節點中選舉出一個新的主節點接替原主節點的工作。
較佳地,該方法進一步包括:
計算機集群系統通過心跳機制檢測到有節點處于了離線狀態,若該節點為主節點,從備節點中選舉出一個新的主節點接替原主節點的工作后,將原主節點進入老化;若該節點為普通節點則直接進入老化;
老化期過后,從計算機集群系統中刪除該節點所有信息。
較佳地,計算機集群系統的各節點統一將心跳消息發送到主節點所在的消息中間件模塊,由主節點和備節點收取并管理心跳消息,如果所收到的最后一條心跳消息中的時間戳距離當前的時間超出預先設定的閾值還沒有收到新的心跳消息,則認為發出該心跳消息的節點離線。
從以上技術方案可以看出,利用消息中間件以及單節點監控程序組成一個覆蓋整個計算機集群系統節點的監控網絡,實時監控每個節點的服務狀態以及網絡狀態,若發現節點故障則由該節點上的監控程序將故障信息上報給管理中心統一處理,從而在不需要人工干預的條件下實現計算機集群系統故障的自動處理功能,保證計算機集群系統節點發生故障后能正常使用,減輕維護人員的工作量,提高計算機集群系統的容錯能力。
附圖說明
圖1為本申請實施例提供的一種計算機集群系統的故障處理方法流程示意圖;
圖2為本申請實施例提供的計算機集群系統的故障處理方法的部署過程示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海愛數軟件有限公司,未經上海愛數軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310548737.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種公共汽車速度控制系統
- 下一篇:一種防丟筆帽水彩筆





