[發明專利]一種GPU集群監控系統及監控報警發布方法在審
| 申請號: | 201210414718.6 | 申請日: | 2012-10-25 |
| 公開(公告)號: | CN103780660A | 公開(公告)日: | 2014-05-07 |
| 發明(設計)人: | 葛鑫;王勝春;李進 | 申請(專利權)人: | 中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術研究院 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L12/24;H04L12/26 |
| 代理公司: | 北京思創畢升專利事務所 11218 | 代理人: | 郭韞 |
| 地址: | 100728 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 gpu 集群 監控 系統 報警 發布 方法 | ||
技術領域
本發明屬于信息技術領域,具體涉及一種GPU集群監控系統及監控報警發布方法。
背景技術
GPU如今在地球物理領域應用越來越廣泛,大規模的GPU集群也隨之而產生,但現如今還未針對大規模GPU集群設備開發相應的實時監控系統,只能監控cpu、內存、存儲等傳統的計算機硬件狀態。而且,目前的實時監控界面單一,只能反應節點健康狀態,以及CPU和GPU的利用率。
發明內容
本發明的目的在于解決上述現有技術中存在的難題,提供一種GPU集群監控系統及監控報警發布方法,針對地球物理研究中對GPU設備的特殊要求,提供一種實時監控系統,實現監控GPU設備運行狀態的功能,將采集的數據轉化為可視化界面,實時的反應設備運行的情況,以保障設備的正常運行。
本發明是通過以下技術方案實現的:
一種GPU集群監控系統,包括代理節點、生產網交換機和信息發布服務器;被監控的GPU集群與代理節點連接,代理節點與生產網交換機連接,生產網交換機與信息發布服務器連接;所述GPU集群是由至少一個計算節點組成的且做并行計算的系統,一個計算節點是一個含有GPU卡的節點;
所述GPU集群監控系統包括數據采集模塊、分析模塊和展現模塊;
在GPU集群中的每一個計算節點上均安裝有所述數據采集模塊,所述數據采集模塊采集該計算節點的數據信息,所述數據信息為GPU卡的利用率;
所述分析模塊設置在所述代理節點上,所述分析模塊將所述采集模塊采集到的數據信息收集到代理節點當中,并對數據信息進行統計分析,生成精簡數據表;
所述展現模塊設置在所述信息發布服務器上,所述展現模塊接收分析模塊生成的精簡數據表,并建立web平臺,將精簡數據表以圖形的形勢直觀表現出來,讓運維人員實時監控。
所述數據采集模塊是通過gmond守護進程來采集計算節點的數據信息
一種監控報警發布方法:所述分析模塊將收集來的精簡數據表中的數據與設定的界限值進行比較,如果精簡數據表中的數據超過界限值,分析模塊會向展示模塊發送消息,展示模塊將對應該數據的設備的標識(比如logo)標注上與其它設備的標識不同的顏色(例如紅色),以引起運維人員的關注。所述界限值是根據本單位設備的實際情況所設定的,數據超過界限值被認為危險。
另外,所述展示模塊向運維人員發送電子郵件和或短信,向運維人員告警。例如,如果節點網絡中斷,GPU集群監控系統即認為該節點死機,然后將該節點死機的信息通過電子郵件和或短信告知運維人員。
與現有技術相比,本發明的有益效果是:
本發明實現了GPU設備的實時監控,同時通過WEB界面發布實時監控信息,本發明在Ganglia監控系統的基礎上擴展了GPU監控,并通過WEB頁面進行展示。
附圖說明
圖1是本發明基于高性能計算的GPU集群監控系統的硬件結構圖。
圖2是本發明基于高性能計算的GPU集群監控系統的工作原理圖。
圖3是本發明本發明基于高性能計算的GPU集群監控系統的模塊結構圖。
具體實施方式
下面結合附圖對本發明作進一步詳細描述:
作為高性能計算的GPU集群,對GPU的實時監控一直是運維人員最為關心的。本發明在Ganglia的原有架構基礎上,編寫了一套適用于GPU監控的系統,并且設計了監控信息,實現了對于GPU的實時監控。一般所謂的GPU是包含GPU卡的計算節點,在普通的監控系統中只能對cpu、內存等常規信息進行實時監控,但是無法對GPU卡進行實時監控,本發明就是針對這個研發出一套系統來專門針對GPU卡的利用率進行實時監控。
如圖1所示,本發明的GPU集群監控系統是應用在GPU集群中的,通過部署Ganglia系統中的gmond守護進程來采集并傳遞數據。本發明的監控系統包括代理節點、生產網交換機和信息發布服務器;被監控的GPU集群與代理節點連接,代理節點與生產網交換機連接,生產網交換機與信息發布服務器連接。
如圖2所示,本發明的監控系統是在Ganglia的基礎上進行擴展,實現對GPU集群的監控功能,Ganglia是一個集群監控系統,每個節點都運行一個收集和發送度量數據的名為gmond的守護進程,接收所有度量數據的主機叫代理節點,代理節點顯示這些數據并且將這些數據的精簡表單通過交換機傳遞到信息發布服務器上,這些數據在信息發布服務器會對這些數據進行處理,然后通過搭建web平臺將運行狀態呈現出來。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術研究院,未經中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210414718.6/2.html,轉載請聲明來源鉆瓜專利網。





