[發(fā)明專利]一種GPU集群監(jiān)控系統(tǒng)及監(jiān)控報警發(fā)布方法在審
| 申請?zhí)枺?/td> | 201210414718.6 | 申請日: | 2012-10-25 |
| 公開(公告)號: | CN103780660A | 公開(公告)日: | 2014-05-07 |
| 發(fā)明(設(shè)計)人: | 葛鑫;王勝春;李進(jìn) | 申請(專利權(quán))人: | 中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術(shù)研究院 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L12/24;H04L12/26 |
| 代理公司: | 北京思創(chuàng)畢升專利事務(wù)所 11218 | 代理人: | 郭韞 |
| 地址: | 100728 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 gpu 集群 監(jiān)控 系統(tǒng) 報警 發(fā)布 方法 | ||
1.一種GPU集群監(jiān)控系統(tǒng),包括代理節(jié)點、生產(chǎn)網(wǎng)交換機(jī)和信息發(fā)布服務(wù)器;被監(jiān)控的GPU集群與代理節(jié)點連接,代理節(jié)點與生產(chǎn)網(wǎng)交換機(jī)連接,生產(chǎn)網(wǎng)交換機(jī)與信息發(fā)布服務(wù)器連接;所述GPU集群是由至少一個計算節(jié)點組成的且做并行計算的系統(tǒng),一個計算節(jié)點是一個含有GPU卡的節(jié)點,其特征在于:
所述GPU集群監(jiān)控系統(tǒng)包括數(shù)據(jù)采集模塊、分析模塊和展現(xiàn)模塊;
在GPU集群中的每一個計算節(jié)點上均安裝有所述數(shù)據(jù)采集模塊,所述數(shù)據(jù)采集模塊采集該計算節(jié)點的數(shù)據(jù)信息,所述數(shù)據(jù)信息為GPU卡的利用率;
所述分析模塊設(shè)置在所述代理節(jié)點上,所述分析模塊將所述采集模塊采集到的數(shù)據(jù)信息收集到代理節(jié)點當(dāng)中,并對數(shù)據(jù)信息進(jìn)行統(tǒng)計分析,生成精簡數(shù)據(jù)表;
所述展現(xiàn)模塊設(shè)置在所述信息發(fā)布服務(wù)器上,所述展現(xiàn)模塊接收分析模塊生成的精簡數(shù)據(jù)表,并建立web平臺,將精簡數(shù)據(jù)表以圖形的形勢直觀表現(xiàn)出來。
2.根據(jù)權(quán)利要求1所述的GPU集群監(jiān)控系統(tǒng),其特征在于:所述數(shù)據(jù)采集模塊是通過gmond守護(hù)進(jìn)程來采集計算節(jié)點的數(shù)據(jù)信息。
3.一種利用權(quán)利要求2所述GPU集群監(jiān)控系統(tǒng)進(jìn)行監(jiān)控報警發(fā)布方法,其特征在于:所述分析模塊將收集來的精簡數(shù)據(jù)表中的數(shù)據(jù)與設(shè)定的界限值進(jìn)行比較,如果精簡數(shù)據(jù)表中的數(shù)據(jù)超過界限值,分析模塊會向展示模塊發(fā)送消息,展示模塊將對應(yīng)該數(shù)據(jù)的設(shè)備的標(biāo)識標(biāo)注上與其它設(shè)備的標(biāo)識不同的顏色。
4.根據(jù)權(quán)利要求3所述的監(jiān)控報警發(fā)布方法,其特征在于:所述展示模塊向運維人員發(fā)送電子郵件和或短信。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術(shù)研究院,未經(jīng)中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210414718.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖形處理器任務(wù)的分配方法和裝置
- 一種資源調(diào)度裝置、資源調(diào)度系統(tǒng)和資源調(diào)度方法
- 一種免工具GPU支架固定裝置
- 一種YARN集群GPU資源調(diào)度方法、裝置和介質(zhì)
- 一種服務(wù)器內(nèi)4GPU布局結(jié)構(gòu)及其安裝方法
- 一種GPU資源調(diào)度系統(tǒng)及其調(diào)度方法
- 一種GPU拓?fù)浞謪^(qū)方法與裝置
- 一種基于Kubernetes的共享GPU調(diào)度方法
- 一種數(shù)據(jù)處理的方法和裝置
- 一種GPU分配方法、系統(tǒng)、存儲介質(zhì)及設(shè)備
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計算機(jī)介質(zhì)
- 混合云場景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計算機(jī)存儲介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲介質(zhì)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 一種范圍廣、力度大的校內(nèi)監(jiān)控系統(tǒng)
- 一種監(jiān)控的方法及系統(tǒng)
- 設(shè)備的監(jiān)控方法、裝置、系統(tǒng)和空調(diào)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 設(shè)備監(jiān)控方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 風(fēng)險雷達(dá)預(yù)警的監(jiān)控方法及系統(tǒng)
- 區(qū)塊鏈網(wǎng)絡(luò)監(jiān)控系統(tǒng)、裝置及方法
- 基于機(jī)器視覺的車站客流安全智能監(jiān)控系統(tǒng)





