[發(fā)明專利]基于云計算的GPU性能監(jiān)控系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710240638.6 | 申請日: | 2017-04-13 |
| 公開(公告)號: | CN108733531B | 公開(公告)日: | 2021-08-24 |
| 發(fā)明(設(shè)計)人: | 楊松貴;諶瑞敏;李曄飛 | 申請(專利權(quán))人: | 南京維拓科技股份有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 210012 江蘇省南京市雨*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 計算 gpu 性能 監(jiān)控 系統(tǒng) | ||
本發(fā)明涉及一種基于云計算的GPU性能監(jiān)控系統(tǒng),GPU性能數(shù)據(jù)采集單元將采集的GPU性能數(shù)據(jù)上傳至基于云平臺的服務(wù)中心,服務(wù)中心負(fù)責(zé)存儲性能數(shù)據(jù),并且按照規(guī)則計算性能指標(biāo),管理人員可以通過移動終端或者PC查看即時的性能指標(biāo)。當(dāng)性能指標(biāo)超過預(yù)設(shè)的范圍,服務(wù)中心也會通過智能終端主動通知管理員。本發(fā)明能夠?qū)崟r的觀察到GPU性能,方便管理人員掌握GPU資源的使用情況,在GPU使用過載的情況下,能夠及時收到通知信息,調(diào)配資源,做出合理對應(yīng),大大降低了整個工作站管理維持成本,提高了管理員維護(hù)的工作效率。
技術(shù)領(lǐng)域
本發(fā)明涉及一種監(jiān)控系統(tǒng),具體涉及一種基于云計算的GPU性能監(jiān)控系統(tǒng),屬于GPU性能采集監(jiān)控領(lǐng)域。
背景技術(shù)
隨著虛擬化技術(shù)的發(fā)展,越來越多的公司和個人使用虛擬化場景來辦公。圖形處理技術(shù)的發(fā)展,使得對GPU性能有更高要求的渲染設(shè)計工作也得以利用虛擬化帶來的好處。在工業(yè)三維設(shè)計領(lǐng)域,專用的圖形工作站和設(shè)計軟件都十分昂貴,虛擬化技術(shù)可以使多人共享使用GPU的計算能力,使得資源復(fù)用,降低設(shè)計成本。在這種情況下,GPU的利用率提高的同時,GPU的負(fù)載也在加大。所以需要一種監(jiān)控GPU性能的方法和系統(tǒng),使得管理員能夠及時獲取GPU使用情況。
現(xiàn)有的GPU性能采集大多只是GPU廠商提供的單機數(shù)據(jù)的采集方法,并沒有提供統(tǒng)一的存儲。在虛擬化的場景中,會根據(jù)業(yè)務(wù)部署多個帶GPU的圖形工作站節(jié)點。這種場景下,管理員去每個節(jié)點查閱性能數(shù)據(jù)會非常繁瑣,沒有統(tǒng)一方便的工具提供整個系統(tǒng)的性能狀況,維護(hù)整個系統(tǒng)的成本較高,并且工作效率較低。鑒于現(xiàn)狀,迫切的需要一種新的方案解決該技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明正是針對現(xiàn)有技術(shù)中存在的技術(shù)問題,提供一種基于云計算的GPU性能監(jiān)控系統(tǒng),整個技術(shù)方案結(jié)構(gòu)緊湊、成本較低,節(jié)能環(huán)保,該技術(shù)方案基于云計算平臺,檢測單元采集到數(shù)據(jù)后會發(fā)到云端統(tǒng)一存儲,大大降低了整個工作站管理維持成本,提高了管理員維護(hù)的工作效率。
為了實現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下,一種基于云計算的GPU性能監(jiān)控系統(tǒng),其特征在于,所述監(jiān)控系統(tǒng)包括GPU性能數(shù)據(jù)采集模塊,云平臺以及用戶終端(Web端和APP移動終端),所述GPU性能數(shù)據(jù)采集模塊采集所在圖形工作站的GPU性能數(shù)據(jù),上傳至云平臺,云平臺存儲性能數(shù)據(jù),用戶使用終端可以查看云平臺中的性能數(shù)據(jù)。
作為本發(fā)明的一種改進(jìn),所述云平臺包括通信模塊,存儲模塊以及數(shù)據(jù)分析模塊,所述通信模塊用于各個子模塊之間的通信,包括性能數(shù)據(jù)上傳、用戶終端和云平臺的通信、分析模塊和用戶終端的通信;存儲模塊用于存儲GPU性能數(shù)據(jù),所有存儲數(shù)據(jù)都是基于時間點的測量值,而且只保留一定時間范圍內(nèi)的數(shù)據(jù)。過期的數(shù)據(jù)會清空。數(shù)據(jù)分析模塊用于對上傳的數(shù)據(jù)進(jìn)行分析。本模塊會按照數(shù)據(jù)來源的圖形工作站和時間跨度兩個維度進(jìn)行分組。然后計算GPU性能的各項指標(biāo)。用戶通過終端可以查看這些指標(biāo),在某些指標(biāo)超過預(yù)設(shè)范圍時直接推送通知消息給用戶。所述通信模塊用于各個子模塊之間的通信,包括性能數(shù)據(jù)上傳,用戶終端和云平臺的通信,分析模塊和用戶終端的通信。現(xiàn)有的通訊模塊中,往往采用編碼后二進(jìn)制協(xié)議來傳輸,具有占用帶寬小的特點,但是也增加了復(fù)雜性。考慮到基于云計算的GPU性能監(jiān)控系統(tǒng)的應(yīng)用場景,本通信模塊都采用基于Restful協(xié)議的方式,這種無狀態(tài)的協(xié)議增加了消息協(xié)議透明性,具備一致的接口,降低了系統(tǒng)復(fù)雜性。存儲模塊用于存儲GPU性能數(shù)據(jù),不同于現(xiàn)有存儲模塊,都是基于結(jié)構(gòu)化的數(shù)據(jù)庫存儲,即先定義好表結(jié)構(gòu),再基于表記錄的存儲方式。在基于云計算的GPU性能監(jiān)控系統(tǒng)中,所有存儲數(shù)據(jù)使用云端的非結(jié)構(gòu)化存儲結(jié)構(gòu),具備分布式擴容的能力,在GPU性能監(jiān)控系統(tǒng)中,存儲基于時間點的測量值,組成基于時間序列的數(shù)據(jù)列,而且只保留一定時間范圍內(nèi)的數(shù)據(jù)。過期的數(shù)據(jù)會清空。
作為本發(fā)明的一種改進(jìn),所述GPU性能數(shù)據(jù)采集模塊部署在每一個圖形工作站節(jié)點上,作為整個系統(tǒng)數(shù)據(jù)采集端,主要采集圖形工作站節(jié)點上的GPU性能數(shù)據(jù),包括GPU使用率,GPU顯存使用率,GPU已使用顯存大小。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京維拓科技股份有限公司,未經(jīng)南京維拓科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710240638.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖形處理器任務(wù)的分配方法和裝置
- 一種資源調(diào)度裝置、資源調(diào)度系統(tǒng)和資源調(diào)度方法
- 一種免工具GPU支架固定裝置
- 一種YARN集群GPU資源調(diào)度方法、裝置和介質(zhì)
- 一種服務(wù)器內(nèi)4GPU布局結(jié)構(gòu)及其安裝方法
- 一種GPU資源調(diào)度系統(tǒng)及其調(diào)度方法
- 一種GPU拓?fù)浞謪^(qū)方法與裝置
- 一種基于Kubernetes的共享GPU調(diào)度方法
- 一種數(shù)據(jù)處理的方法和裝置
- 一種GPU分配方法、系統(tǒng)、存儲介質(zhì)及設(shè)備





