[發明專利]一種用于檢查集群健康狀態的方法和設備有效
| 申請號: | 201710205541.1 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN107391335B | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 曹鋒;林江彬 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;H04L12/24 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 陳貞健;王路豐 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 檢查 集群 健康 狀態 方法 設備 | ||
本申請的目的是提供一種用于檢查集群健康狀態的方法和設備,通過獲取待檢查的集群的相關信息;獲取至少一個待檢查的問題及其對應的檢查規則;基于所述集群的相關信息,從所述集群中獲取與所述檢查規則相關的檢查點的監控數據,并對所述監控數據進行聚合處理以獲得處理結果;基于所述處理結果調取對應所述問題,并基于所述問題的相關信息生成并反饋健康預警信息,實現了對出現所述問題時對應的多個檢查點的健康狀況的監控,并提高了對集群中的所述問題對應的各個檢查點的健康狀況預判的準確度,同時也提高了對線上的分布式文件系統進行多檢查點監控的實時性,并達到提前進行多個檢查點進行報警的目的。
技術領域
本申請涉及計算機領域,尤其涉及一種用于檢查集群健康狀態的技術。
背景技術
在分布式集群報警系統中,隨著用戶設備的海量數據的暴增,分布式文件系統(Distributed File System)的規模也在不斷增長;但隨著分布式文件系統所在集群的老化和業務的不斷增長,各種問題層出不窮,且往往一個集群節點中的單個服務器出現的單點問題都有可能積累而導致很大的故障;然而當問題突發時依靠報警系統所在的平臺進行報警,以喚醒維護人員進行調查并執行解決問題的方法可能會因為錯過解決問題的最佳時間而引發故障。
現有技術中,分布式集群報警系統分別對各個集群節點下的單個服務設備的硬件(例如,內存,硬盤或軟件實體中的局部模塊)和操作系統進行單點報警,在單點出現問題時進行報警,并將大量的報警由服務設備進行簡單的異常報警信息的獲取后統一報警給維護人員。由于現有技術中的分布式集群報警系統只在單點出現問題時進行報警,故在報警前若報警閾值設置過松有可能導致引發故障,而報警閾值設置過嚴會造成大量的誤報;又由于現有技術中的分布式集群報警系統主要針對服務設備的硬件和操作系統的單點進行報警,并沒有對分布式文件系統的可用性、性能及服務質量等做出判斷,造成片面性地對整個分布式文件系統進行報警,導致報警準確度低;又由于現有技術中的分布式集群報警系統僅是簡單地將大量的異常報警信息獲取并統一報警給維護人員,以待維護人員進行調查并解決問題,導致報警準確度低且實時性差。
因此,現有技術中采用分布式集群報警系統對分布式文件系統中的各集群節點下的單個服務設備的硬件和操作系統出現的問題進行單點報警,導致報警準確度低且實時性差。
發明內容
本申請的目的是提供一種用于檢查集群健康狀態的方法與設備,以解決現有技術中采用分布式集群報警系統對分布式文件系統中的各集群節點下的單個服務設備的硬件和操作系統出現的問題進行單點報警,導致報警準確度低且實時性差的問題。
根據本申請的一個方面,提供了一種用于檢查集群健康狀態的方法,包括:
獲取待檢查的集群的相關信息;
獲取至少一個待檢查的問題及其對應的檢查規則;
基于所述集群的相關信息,從所述集群中獲取與所述檢查規則相關的檢查點的監控數據,并對所述監控數據進行聚合處理以獲得處理結果;
基于所述處理結果調取對應所述問題,并基于所述問題的相關信息生成并反饋健康預警信息。
進一步地,對所述監控數據進行聚合處理以獲得處理結果包括:
基于所述待檢查的問題對應的檢查規則,對每一所述檢查點的監控數據分別進行處理,以獲取至少一個發生監控數據異常的所述檢查點并反饋處理結果。
根據本申請的一個方面,提供了一種用于檢查集群健康狀態的方法,還包括:
創建問題規則庫,所述問題規則庫包括至少一個問題及其對應的檢查規則;
對所述問題規則庫中的問題及其所對應的檢查規則進行更新。
進一步地,對所述問題規則庫中的問題及其所對應的檢查規則進行更新包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710205541.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種共識方法及裝置
- 下一篇:針對數據庫的指令處理方法及裝置





