[發明專利]一種高性能作業調度管理節點雙機加固方法及設備有效
| 申請號: | 201410007013.1 | 申請日: | 2014-01-07 |
| 公開(公告)號: | CN103713974A | 公開(公告)日: | 2014-04-09 |
| 發明(設計)人: | 馬四騰 | 申請(專利權)人: | 浪潮(北京)電子信息產業有限公司 |
| 主分類號: | G06F11/16 | 分類號: | G06F11/16;G06F11/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王丹;栗若木 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 性能 作業 調度 管理 節點 雙機 加固 方法 設備 | ||
技術領域
本發明涉及計算機技術領域,具體涉及一種作業調度管理節點的雙機加固。
背景技術
當前,基于網絡的計算機技術,促進了集群系統的發展和廣泛應用。用高速網絡將高性能工作站或個人電腦(PC)按某種結構連接成集群,實現并行計算,只需要很小的花費就可以得到大型機和并行機的性能。然而,隨著高性能計算機集群應用規模的不斷擴充,集群的管理問題也隨之而來。作業調度系統主要負責接收用戶提交的作業請求,并根據特定的調度規則以及用戶對作業的要求選擇合適的計算資源來完成用戶作業。在作業調度系統的幫助下,對用戶而言高性能計算集群系統就好像一臺具備很多CPU的大服務器,多個用戶可以同時使用這個系統。作業調度系統管理用戶提交的作業,為各個作業合理地分配資源,從而確保充分利用集群系統的計算能力,并盡可能迅速地得到運算結果。因此作業調度系統的重要性也就不言而喻。
傳統的加固方法包括管理節點單機部署,或者使用心跳(heartbeat)方案進行雙機加固。這兩種方式都存在一定的缺陷漏洞,例如采用管理節點單機部署的方式,一旦該管理節點發生故障,便會導致整個集群的作業調度系統停止工作,整個集群的作業無法進行合理有效的調度,作業運行也就會出現停滯,嚴重影響系統運行效率;再如采用心跳方案進行雙機加固,由于心跳軟件自身的設計因素,并不能對作業調度系統實行資源級監控,一旦監控的資源出現故障,就不能有效的進行資源切換,同樣會導致整個集群作業無法進行合理有效的調度,嚴重影響系統運行效率。因上述兩種加固方式均存在致命缺點,故如何更加有效的對作業調度系統進行加固就成為一個亟待解決的技術問題。
發明內容
本發明提出一種高性能作業調度管理節點雙機加固方法及設備,一方面避免了單機部署造成的單點故障問題,另一方面,提供了對作業系統資源的監控,能夠有效的彌補傳統方法的不足。
一種高性能作業調度管理節點雙機加固方法,包括:
步驟1:將NFS服務器的共享目錄掛載到作業調度雙機管理節點上,啟動心跳監控和資源監控;
步驟2:心跳監控和資源監控分別對當前主管理節點的心跳信息和作業系統資源進行監控;
步驟3:判斷當前主管理節點的所述心跳信息或作業系統資源是否發生故障,如果是則啟動管理節點切換。
一種高性能作業調度管理節點雙機加固裝置,包括:
心跳監測模塊,配置用于對當前主管理節點的心跳信息進行監控,并向資源監測模塊報告心跳故障消息;
資源監測模塊,配置用于對當前主管理節點的作業系統資源進行監控,并在接收到心跳故障消息或者判斷所述作業系統資源出現故障時,啟動管理節點切換。
本發明的有益效果是實現對作業調度管理節點的雙機加固,同時也實現了對作業系統資源的監控,能夠有效的彌補傳統方法的不足。
附圖說明
圖1是本發明提出的一種高性能作業調度管理節點雙機加固方法的運行原理框圖。
圖2是本發明提出的一種高性能作業調度管理節點雙機加固方法的流程圖。
圖3是本發明提出的一種高性能作業調度管理節點雙機加固裝置的原理框圖。
具體實施方式
參照圖1,圖1示出了本發明提出的方法的運行原理框圖,在管理節點1(主管理節點)和管理節點2上運行本發明提出的方法,心跳監測模塊實時監測主管理節點的心跳信息,在發現主管理節點的心跳出現故障時,報告資源監控模塊。資源監控模塊實時監控主管理節點上的作業系統資源,當發現作業系統資源出現故障時或者接收到心跳監測模塊報告的主管理節點心跳故障時,啟動管理節點切換過程,使得管理節點2變為主管理節點。
參照附圖2,圖2示出了本發明提出的一種高性能作業調度管理節點雙機加固方法流程圖,包括:
步驟1:將NFS服務器的共享目錄掛載到作業調度雙機管理節點上,啟動心跳監控(corosync)和資源監控(pacemaker)。所述心跳監控和資源監控分別對管理節點1和管理節點2進行監控,其中管理節點1作為主管理節點,管理節點2作為備節點,管理節點1和管理節點2構成作業調度雙機節點。用戶可以事先對心跳監控和資源監控參數進行配置,例如配置資源的監控時長timeout、監控間隔interval、資源的分組以及啟動順序,同時需要配置STONITH,這樣可以最大限度的保障資源的可用性。
步驟2:心跳監控和資源監控分別對當前主管理節點的心跳信息和作業系統資源進行監控。
步驟3:判斷當前主管理節點的所述心跳信息或作業系統資源是否發生故障,如果是則啟動管理節點切換。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮(北京)電子信息產業有限公司,未經浪潮(北京)電子信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410007013.1/2.html,轉載請聲明來源鉆瓜專利網。





