[發明專利]一種服務器集群的監控方法及系統在審
| 申請號: | 202110861748.0 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113656242A | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 劉暢 | 申請(專利權)人: | 濟南浪潮數據技術有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F9/50;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 濟南誠智商標專利事務所有限公司 37105 | 代理人: | 李修杰 |
| 地址: | 250000 山東省濟南市中國(山東)自由貿易*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 服務器 集群 監控 方法 系統 | ||
本發明提供了一種服務器集群的監控方法及系統,所述方法包括將集群中的服務器進行分組,并為每個分組設置優先級;結合機器學習得到的訓練模型,將分組按照優先級由低到高的順序,設置監控的物理資源限額。本發明通過深度學習,篩選出重點需要監測的服務器指標項,在保證監控頻率的同時,減少監控平臺的壓力,保證監控平臺對超大規模服務器集群監控的實時性與健壯性。
技術領域
本發明涉及服務器運行安全技術領域,尤其是一種服務器集群的監控方法及系統。
背景技術
在超大規模的數據中心中,服務器的數量可能達到了上萬的規模,在應對如此大規模的服務器集群監控時,監控平臺為了保證監控的實時性,往往需要通過硬件擴容或者分布式部署的方式,來減緩高頻輪詢給監控平臺帶來的硬件負載,其中硬件負載包括CPU利用率和內存利用率等。
監控平臺以主動輪詢的方式監控服務器,假設監控指標項為100個,監控頻率為5分鐘,監控服務器的數量為5000臺,監控平臺使用JVM(Java Virtual Machine,Java虛擬機。JVM是一種用于計算設備的規范,它是一個虛構出來的計算機,是通過在實際的計算機上仿真模擬各種計算機功能來實現的)線程池實現監控調度。在這種情況下,監控平臺的硬件配置大概為8核CPU,32GiB內存。如果需要繼續增大監控規模或者繼續減小監控頻率,所需的硬件資源就會更多。這會很大程度上消耗數據中心有限的硬件資源。
發明內容
本發明提供了一種服務器集群的監控方法及系統,用于解決現有監控策略,對數據中心的硬件資源造成大量消耗的問題。
為實現上述目的,本發明采用下述技術方案:
本發明第一方面提供了一種服務器集群的監控方法,所述方法包括以下步驟:
將集群中的服務器進行分組,并為每個分組設置優先級;
結合機器學習得到的訓練模型,將分組按照優先級由低到高的順序,設置監控的物理資源限額。
進一步地,機器學習得到訓練模型的具體過程為:
采用深度神經網絡進行訓練;
神經網絡輸入層的特征值包括CPU類、內存類和網絡類;
神經網絡的輸出向量為所述特征值出現故障風險的概率值,所述概率值是關于時間的函數。
進一步地,所述設置監控的物理資源限額的方式為限制監控線程池中線程的個數、減小線程的調用頻率或減少線程中監控命令的個數中的一種或幾種。
進一步地,所述方法在結合機器學習得到的訓練模型之后,還包括步驟:
對設置物理資源限額的分組設定生效時間段。
進一步地,所述方法在結合機器學習得到的訓練模型之后,還包括步驟:
對監控服務器中的監控項,設置監控優先級;
若當前服務器被設置物理資源限額時,對當前服務器內的所述監控項按照監控優先級由低到高的順序,減小物理資源的限額程度。
進一步地,所述監控項包括CPU利用率、CPU溫度和CPU負載。
本發明第二方面提供了一種服務器集群的監控系統,所述系統包括:
預處理模塊,將集群中的服務器進行分組,并為每個分組設置優先級;
監控策略模塊,結合機器學習得到的訓練模型,將分組按照優先級由低到高的順序,設置監控的物理資源限額。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南浪潮數據技術有限公司,未經濟南浪潮數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110861748.0/2.html,轉載請聲明來源鉆瓜專利網。





