[發明專利]跨數據中心集群的分布式系統監控方法及系統有效
| 申請號: | 201310636793.1 | 申請日: | 2013-12-02 |
| 公開(公告)號: | CN103685486B | 公開(公告)日: | 2017-01-18 |
| 發明(設計)人: | 楊慶林;孫毓忠 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L12/26 |
| 代理公司: | 北京律誠同業知識產權代理有限公司11006 | 代理人: | 祁建國,梁揮 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據中心 集群 分布式 系統 監控 方法 | ||
技術領域
本發明涉及服務器集群監控領域,尤其涉及橫跨多數據中心實現監控系統及方法。
背景技術
隨著云計算越來越多地應用到信息產業的各個領域,云平臺所依托的數據中心數量逐漸增多、規模日趨龐大,進而出現單一云平臺中運行的業務橫跨多個數據中心的情況。如何有效地實現監控和管理龐大數量、跨數據中心、跨地域的集群設備并且保證系統的高性能和高可用性是當前面臨的必要和緊迫的問題。
目前業界普遍采用的第一種監控架構是金字塔式的,例如由某大學的國家高性能計算機實驗室研發針對的通用的應用于大規模Linux集群的監控系統軟件SuperMon,它分為三個層次:底層每個節點上的數據服務(mon)用來收集節點狀態信息,中層的數據集中器(Supermon)匯總來自每個mon的數據并處理來自上層的數據請求實例,最上層的應用客戶端或頂層數據集中器匯總每個Supermon的數據,進行顯示或者再次匯總;另外由Yahoo開發的基于Hadoop之上的用于分布式系統狀態監控的大型數據采集與分析系統Chukwa,由Agent和Collector組件組成,Agent負責采集監控主機上原始數據,Collector負責收集Agent發送的數據并做持久化處理。這些軟件組成的模塊首先所有最底層被監控的服務器節點上的代理程序收集數據,然后每個代理程序將數據匯聚給所在集群的中心監控服務器節點,最后中心監控服務器節點將數據累積上傳給總監控服務器節點,監控集群的數據則需要從總監控節點獲取。
采用這種架構存在以下幾個問題:
(1)大量監控數據由下層服務器節點同時向總監控節點匯集,同時總監控節點還要響應業務方面獲取監控數據的請求,無疑極大增加了總監控節點的輸入輸出壓力,同時也直接導致穩定性下降,不能很好地滿足日常業務需求。
(2)監控系統中節點角色的唯一性,如果中心監控節點出現問題,則部分監控系統就失效了;如果總監控服務器節點出現故障或宕機,則整個監控系統隨之陷于癱瘓。
(3)面對跨多個數據中心的業務時,總監控節點在總數據量和架構的瓶頸限制下將很難橫跨多個數據中心,將很大程度上減慢響應的時間而無法滿足實時性的要求。
第二種監控架構為分布式架構,突出的代表是由美國UC?Berkeley開發維護的Ganglia軟件,它基于XML技術的數據傳遞可以是系統的狀態數據跨越不同的系統平臺而進行交互,解決了系統間異構性的問題;采用基于多播的listen/announce協議,每個節點向所有相鄰節點發出自身節點的狀態監控信息。收發大量不必要的冗余信息,造成網絡和節點I/O開銷非常大,導致監控數據刷新的頻率較慢。
另外,上面所述的Ganglia在用戶進行安裝初始化過程中,每個節點的代理端gmond都需要手工配置參數后才能運行,如果需要變更運行配置參數,還需要逐個節點進行修改后重啟程序,過程非常繁瑣,是監控系統的靈活性和可擴展性隨之下降。
發明專利一種超大規模集群監控系統及方法,該系統包括分區監控服務器和中心監控服務器;每個分區監控服務器采集到每個分區集群內部信息后,將該信息推送至中心監控服務器;中心監控服務器接收來自分區監控服務器的信息,并按照信息對所有分區進行統一配置,然后將統一配置結果提供給分區監控服務器;分區監控服務器接收來自中心監控服務器的統一配置結果,按此結果對集群進行監控和管理。該發明采用了分區監控服務器和中心監控服務器的金字塔架構,當下層分區監控服務器及被監控的節點規模增大時,中心監控服務器的網絡和本機I/O非常大。并且沒有實現對于業務個性化監控請求的定制,沒有對于單個業務運行在多個數據中心情況下的協同處理,仍然停留在單個數據中心的層面。但是僅僅解決業務定制的問題,并沒有將各層節點的職能做了清晰地劃分而使監控集群更加高效。
發明專利分布式集群監控系統及方法,該方法包括以下步驟:每個分中心監控服務器采集到每個分布式集群內部的信息后,將信息推送至中心監控服務器。中心監控服務器接收來自分中心監控服務器的信息,并按照信息對所有分布式集群進行統一配置,然后將統一配置的結果提供給分中心監控服務器。分中心監控服務器接收來自中心監控服務器的統一配置結果,按照配置結果對分布式集群進行監控和管理。該發明為每個子集群創建了分中心的監控器,將采集到的集群內部信息推送到中心監控服務器,仍然會造成中心監控服務器的網絡和節點I/O巨大的問題沒有解決。沒有滿足業務的個性化監控定制需求,并且針對各層節點的動態擴展性和運行時穩定性不佳。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310636793.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種壁紙的加載方法和瀏覽器裝置
- 下一篇:一種物聯網互聯互通平臺及其通信方法





