[發(fā)明專利]分布式環(huán)境中多GPU服務(wù)器的GPU卡管理方法、系統(tǒng)及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010081235.3 | 申請日: | 2020-02-06 |
| 公開(公告)號: | CN111290855B | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設(shè)計)人: | 孫亞楠;呂建成 | 申請(專利權(quán))人: | 四川大學(xué) |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06N3/08 |
| 代理公司: | 成都正華專利代理事務(wù)所(普通合伙) 51229 | 代理人: | 李蕊 |
| 地址: | 610064 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分布式 環(huán)境 gpu 服務(wù)器 管理 方法 系統(tǒng) 存儲 介質(zhì) | ||
本發(fā)明公開了一種分布式環(huán)境中多GPU服務(wù)器的GPU卡管理方法、系統(tǒng)及存儲介質(zhì),其中方法包括S1獲取并存儲所有GPU服務(wù)器的基本信息,初始化配置表;S2獲取每臺GPU服務(wù)器中的空閑GPU卡,并將空閑GPU卡的編號及其所在GPU服務(wù)器編號作為一條記錄存儲至配置表中;S3當(dāng)所有GPU服務(wù)器中的空閑GPU卡信息均已查詢,且存在未遍歷的模型時,于設(shè)定時間后返回步驟S1;S4當(dāng)配置表中存在至少一條記錄時,隨機(jī)選取并刪除配置表中的一條記錄;S5選取一個未遍歷的模型,并將其發(fā)送至選取的記錄中的空閑GPU卡上運(yùn)行;S6判斷是否存在未遍歷的模型,若是,返回步驟S4,否則搜索并匯總消息隊列中記錄的來自于需要訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)模型的所有記錄。
技術(shù)領(lǐng)域
本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索領(lǐng)域,具體涉及一種分布式環(huán)境中多GPU服務(wù)器的GPU卡管理方法、系統(tǒng)及存儲介質(zhì)。
背景技術(shù)
目前進(jìn)行神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索時,普遍會事先產(chǎn)生多個深度神經(jīng)網(wǎng)絡(luò)架構(gòu),然后逐一在訓(xùn)練集上訓(xùn)練每一個神經(jīng)網(wǎng)絡(luò),然后從中挑選出在驗證集上性能最好的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。在訓(xùn)練集上訓(xùn)練每一個深度神經(jīng)網(wǎng)絡(luò)是一個較為耗時的過程,例如在常用的中等規(guī)模圖像分類數(shù)據(jù)集CIFAR10和CIFAR100上,評估一個常見的卷積神經(jīng)網(wǎng)絡(luò)模型,即使借助于高性能的圖形處理單元(Graphic Processing Unit,GPU)也需要5-10個小時左右,深度神經(jīng)網(wǎng)絡(luò)模型選擇往往需要評估的網(wǎng)絡(luò)數(shù)量級在10的四次方左右;如果在一塊GPU上訓(xùn)練完這些網(wǎng)絡(luò),則一共需要2000-4000天。
為了縮短訓(xùn)練時間,企業(yè)界常采用的方法就是購買大量的GPU,每一個GPU上訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型,多個GPU同時進(jìn)行訓(xùn)練,以此來降低神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的整個耗費(fèi)時間。目前常見的GPU服務(wù)器,通常情況下每臺服務(wù)器會裝配有4-8個GPU卡,如采用10臺GPU服務(wù)器,每臺均裝配8個顯卡,則以上訓(xùn)練過程則可縮短至50天,這種情況下往往用戶可以接受。
利用裝配有多個GPU的多個GPU服務(wù)器的分布式環(huán)境,進(jìn)行神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索,可以快速的搜索到最優(yōu)的神經(jīng)網(wǎng)絡(luò)架構(gòu)模型。這為用戶快速使用以神經(jīng)網(wǎng)絡(luò)為主要方法的人工智能技術(shù)提供了極大便利。但卻存在如何去有效管理分布式環(huán)境中的多個GPU服務(wù)器內(nèi)的多個GPU卡的問題。
目前業(yè)界主要采用兩種方式來管理分布式環(huán)境中的多GPU服務(wù)器上的多GPU卡,第一類是采用數(shù)據(jù)流系統(tǒng)(Dataflow system)的分布式機(jī)器學(xué)習(xí)平臺,第二類是采用參數(shù)服務(wù)器架構(gòu)(Parameter-server architecture)的分布式機(jī)器學(xué)習(xí)平臺。
為了方便描述分布式平臺的工作機(jī)理,借用分布式平臺常用的術(shù)語,把在分布式環(huán)境中負(fù)責(zé)任務(wù)調(diào)度以及邏輯管理的機(jī)器為命名為master,接受mater服務(wù)器的管理,并進(jìn)行一些具體任務(wù)執(zhí)行的機(jī)器為worker。一個分布式環(huán)境中一般由一個master和多個worker機(jī)器組成,同時一個master可以和一個worker位于同一臺物理主機(jī)中,一個worker可以管理其裝備的多個GPU。
采用數(shù)據(jù)流系統(tǒng)的分布式機(jī)器學(xué)習(xí)平臺主要包括MapReduce,Naiad以及Spark等。這些平臺采用有向圖來表示數(shù)據(jù)流動方向,有向圖上相互連接的兩個頂點(diǎn)代表了模型的流轉(zhuǎn)方向,指明了master到worker或者worker到另外一個worker的執(zhí)行順序。一個master可以連接到多個worker,一個worker也可以連接到多個worker。該平臺對多個神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練時,會有master把神經(jīng)網(wǎng)絡(luò)模型傳輸?shù)綄?yīng)的worker上,worker執(zhí)行完任務(wù)返回給master。
采用參數(shù)服務(wù)器架構(gòu)的分布式機(jī)器學(xué)習(xí)平臺,主要包括Google DistBelief,Parameter Server以及PMLS。這些平臺工作原理類似于基于數(shù)據(jù)流系統(tǒng)的分布式機(jī)器學(xué)習(xí)平臺,但是主要解決的是多個worker之間協(xié)同執(zhí)行同一個模型的時候,來如何有效的更新該模型的全部參數(shù),并且更新后的模型參數(shù)還需要重新回到master上,master接著再次分配該任務(wù)進(jìn)行下一次的分布式協(xié)同處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010081235.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)
- 圖形處理器任務(wù)的分配方法和裝置
- 一種資源調(diào)度裝置、資源調(diào)度系統(tǒng)和資源調(diào)度方法
- 一種免工具GPU支架固定裝置
- 一種YARN集群GPU資源調(diào)度方法、裝置和介質(zhì)
- 一種服務(wù)器內(nèi)4GPU布局結(jié)構(gòu)及其安裝方法
- 一種GPU資源調(diào)度系統(tǒng)及其調(diào)度方法
- 一種GPU拓?fù)浞謪^(qū)方法與裝置
- 一種基于Kubernetes的共享GPU調(diào)度方法
- 一種數(shù)據(jù)處理的方法和裝置
- 一種GPU分配方法、系統(tǒng)、存儲介質(zhì)及設(shè)備





