[發(fā)明專利]GPU性能的監(jiān)控方法、監(jiān)控裝置和電子設(shè)備在審
| 申請?zhí)枺?/td> | 202310403108.4 | 申請日: | 2023-04-14 |
| 公開(公告)號(hào): | CN116560941A | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計(jì))人: | 張書博 | 申請(專利權(quán))人: | 蘇州浪潮智能科技有限公司 |
| 主分類號(hào): | G06F11/30 | 分類號(hào): | G06F11/30 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 霍文娟 |
| 地址: | 215000 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | gpu 性能 監(jiān)控 方法 裝置 電子設(shè)備 | ||
本申請實(shí)施例提供了一種GPU性能的監(jiān)控方法、監(jiān)控裝置和電子設(shè)備,其中,該方法包括:通過目標(biāo)腳本判斷GPU是否開啟MIG模式,其中,目標(biāo)腳本為GPU所在的節(jié)點(diǎn)中至少用于獲取并輸出GPU中多個(gè)MIG小組的性能參數(shù)的腳本,MIG模式是用于將GPU劃分為多個(gè)MIG小組的模式;在GPU開啟MIG模式的情況下,通過目標(biāo)腳本獲取GPU中各MIG小組的標(biāo)識(shí)符和索引值,根據(jù)每個(gè)MIG小組的標(biāo)識(shí)符和索引值至少獲取每個(gè)MIG小組對(duì)應(yīng)的一組第一性能參數(shù),并至少將第一性能參數(shù)存儲(chǔ)至目標(biāo)存儲(chǔ)單元。通過本申請,解決了無法對(duì)GPU中的多個(gè)MIG小組的性能進(jìn)行監(jiān)控的問題,進(jìn)而達(dá)到了監(jiān)控GPU中多個(gè)MIG小組的性能的效果。
技術(shù)領(lǐng)域
本申請實(shí)施例涉及GPU性能監(jiān)控領(lǐng)域,具體而言,涉及一種GPU性能的監(jiān)控方法、監(jiān)控裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備。
背景技術(shù)
對(duì)于人工智能云平臺(tái),深度學(xué)習(xí)算力資源是比較貴重的,類似于GA100的新型算力更為稀缺,GA100是NVIDIA?TESLA-A100型號(hào)的GPU卡,是一種能夠開啟MIG(英偉達(dá)提出的GPU硬件維度算力切分方式,Multi-Instance?GPU,簡稱為MIG)模式的新型算力,英偉達(dá)提供MIG功能也是為了從硬件根本實(shí)現(xiàn)對(duì)算力的合理切分與分配使用。MIG是對(duì)于GPU整卡來說更細(xì)粒度的資源切割,直接從物理角度將GPU的內(nèi)核與顯存進(jìn)行拆分與重組,可以更大程度上的去適應(yīng)多種較小任務(wù)的同時(shí)執(zhí)行。且過去的GPU復(fù)用是使用時(shí)間片來實(shí)現(xiàn)多任務(wù)并發(fā)執(zhí)行,根本上并不能算作是各任務(wù)相對(duì)獨(dú)立,也無法保證資源的充分利用。
MIG可以將GPU的7個(gè)核與顯存生成多種組合,使其能夠靈活隔離資源與分配給任務(wù)。但是,開啟MIG后,NVIDIA的“NVIDIA?SMI”命令便無法獲取到各MIG實(shí)例的詳細(xì)監(jiān)控指標(biāo),GPU利用率也顯示N/A(不使用或者不支持當(dāng)前功能),只能獲取到GPU整卡的數(shù)據(jù)與各MIG實(shí)例的顯存使用情況。在k8s云平臺(tái)的訓(xùn)練模塊中,每個(gè)任務(wù)生成的pod(一種數(shù)據(jù)結(jié)構(gòu),Plain?old?data?structure,簡稱為pod)會(huì)分配對(duì)應(yīng)的GPU資源,當(dāng)開啟MIG后,將會(huì)自動(dòng)把MIG實(shí)例的UUID(通用標(biāo)識(shí)符,Universally?Unique?Identifer,簡稱為UUID)寫入到pod的環(huán)境變量中,而無法直接獲取其對(duì)應(yīng)GPU的UUID,造成查詢監(jiān)控?cái)?shù)據(jù)上的偏差。因此,GPU中多個(gè)任務(wù)的優(yōu)化情況、訓(xùn)練情況、資源的使用情況就無法通過數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控的,造成了功能上的缺失。
因此,亟需一種能夠?qū)PU中多個(gè)MIG實(shí)例的性能進(jìn)行監(jiān)控的方法。
發(fā)明內(nèi)容
本申請實(shí)施例提供了一種GPU性能的監(jiān)控方法、監(jiān)控裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備,以至少解決相關(guān)技術(shù)中無法對(duì)GPU中的多個(gè)MIG小組的性能進(jìn)行監(jiān)控的問題。
根據(jù)本申請的一個(gè)實(shí)施例,提供了一種GPU性能的監(jiān)控方法,包括:通過目標(biāo)腳本判斷GPU是否開啟MIG模式,其中,所述目標(biāo)腳本為所述GPU所在的節(jié)點(diǎn)中至少用于獲取并輸出所述GPU中多個(gè)MIG小組的性能參數(shù)的腳本,所述MIG模式是用于將所述GPU劃分為多個(gè)所述MIG小組的模式;在所述GPU開啟所述MIG模式的情況下,通過所述目標(biāo)腳本獲取所述GPU中各所述MIG小組的標(biāo)識(shí)符和索引值,根據(jù)每個(gè)所述MIG小組的標(biāo)識(shí)符和索引值至少獲取每個(gè)所述MIG小組對(duì)應(yīng)的一組第一性能參數(shù),并至少將所述第一性能參數(shù)存儲(chǔ)至目標(biāo)存儲(chǔ)單元,其中,所述第一性能參數(shù)表示每個(gè)所述MIG小組的計(jì)算核心的性能且至少包括顯存參數(shù)和dram_active參數(shù)。
在一個(gè)示例性實(shí)施例中,通過目標(biāo)腳本判斷GPU是否開啟MIG模式之前,還包括:執(zhí)行所述目標(biāo)腳本中的NVIDIA?SMI指令,在成功執(zhí)行所述NVIDIA?SMI指令的情況下,執(zhí)行判斷所述GPU是否開啟MIG模式的步驟;在執(zhí)行所述NVIDIA?SMI指令失敗的情況下,退出所述目標(biāo)腳本。
在一個(gè)示例性實(shí)施例中,通過所述目標(biāo)腳本獲取所述GPU中各所述MIG小組的標(biāo)識(shí)符和索引值,包括:通過所述目標(biāo)腳本中的NVIDIA?SMI?L指令獲取所述GPU中各所述MIG小組的標(biāo)識(shí)符和索引值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州浪潮智能科技有限公司,未經(jīng)蘇州浪潮智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310403108.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測;錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過測試作故障硬件的檢測或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯(cuò)誤檢測、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測試或調(diào)試防止錯(cuò)誤
- 圖形處理器任務(wù)的分配方法和裝置
- 一種資源調(diào)度裝置、資源調(diào)度系統(tǒng)和資源調(diào)度方法
- 一種免工具GPU支架固定裝置
- 一種YARN集群GPU資源調(diào)度方法、裝置和介質(zhì)
- 一種服務(wù)器內(nèi)4GPU布局結(jié)構(gòu)及其安裝方法
- 一種GPU資源調(diào)度系統(tǒng)及其調(diào)度方法
- 一種GPU拓?fù)浞謪^(qū)方法與裝置
- 一種基于Kubernetes的共享GPU調(diào)度方法
- 一種數(shù)據(jù)處理的方法和裝置
- 一種GPU分配方法、系統(tǒng)、存儲(chǔ)介質(zhì)及設(shè)備
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 一種范圍廣、力度大的校內(nèi)監(jiān)控系統(tǒng)
- 一種監(jiān)控的方法及系統(tǒng)
- 設(shè)備的監(jiān)控方法、裝置、系統(tǒng)和空調(diào)
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 設(shè)備監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 風(fēng)險(xiǎn)雷達(dá)預(yù)警的監(jiān)控方法及系統(tǒng)
- 區(qū)塊鏈網(wǎng)絡(luò)監(jiān)控系統(tǒng)、裝置及方法
- 基于機(jī)器視覺的車站客流安全智能監(jiān)控系統(tǒng)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





