[發(fā)明專利]用于在虛擬分布式異構(gòu)環(huán)境下實現(xiàn)多GPU調(diào)度的方法和系統(tǒng)有效

申請?zhí)枺?/td>	202011574923.X	申請日：	2020-12-28
公開（公告）號：	CN112612613B	公開（公告）日：	2023-06-23
發(fā)明（設(shè)計）人：	李肯立;劉園春;唐卓;郭耀蓮;宋瑩潔;羅文明;陽王東;曹嶸暉;肖國慶;劉楚波;周旭	申請（專利權(quán)）人：	湖南大學(xué)
主分類號：	G06F9/50	分類號：	G06F9/50;G06F9/54
代理公司：	武漢臻誠專利代理事務(wù)所(普通合伙) 42233	代理人：	宋業(yè)斌
地址：	410082 湖***	國省代碼：	湖南;43
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用于虛擬分布式環(huán)境實現(xiàn) gpu 調(diào)度方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種虛擬分布式異構(gòu)環(huán)境下實現(xiàn)多GPU調(diào)度的方法，其根據(jù)OpenStack創(chuàng)建的虛擬環(huán)境下的GPU集群，將GPU本地任務(wù)劃分為更細(xì)粒度的GPU本地子任務(wù)，然后根據(jù)數(shù)據(jù)本地性以及從節(jié)點(diǎn)上所有GPU的流狀態(tài)和內(nèi)存資源狀態(tài)將GPU本地子任務(wù)調(diào)度到指定GPU上執(zhí)行，并對超過GPU硬件工作隊列數(shù)量的CUDA流進(jìn)一步調(diào)整主機(jī)調(diào)度任務(wù)的順序消除“虛假依賴”，以及對機(jī)器學(xué)習(xí)/深度學(xué)習(xí)每次迭代產(chǎn)生的中間數(shù)據(jù)進(jìn)一步處理來提高GPU內(nèi)存利用率從而充分平衡各個GPU上的工作負(fù)載，降低OpenStack創(chuàng)建的虛擬環(huán)境下GPU應(yīng)用程序的執(zhí)行時間。本發(fā)明能解決現(xiàn)有分布式異構(gòu)OpenStack處理框架創(chuàng)建的多GPU環(huán)境中存在的吞吐量低、無法有效利用多個GPU、以及由于缺乏有效GPU負(fù)載均衡策略導(dǎo)致時間開銷大的技術(shù)問題。

技術(shù)領(lǐng)域

本發(fā)明屬于分布式、高性能計算技術(shù)領(lǐng)域，更具體地，涉及一種用于在虛擬分布式環(huán)境下實現(xiàn)多GPU調(diào)度的方法和系統(tǒng)。

背景技術(shù)

OpenStack是分布式應(yīng)用程序，其具有豐富的數(shù)據(jù)并行性和任務(wù)并行性，也適用于GPU加速。因此，將GPU集成到OpenStack分布式處理框架中可以大大提高性能。

目前，開源版本的OpenStack應(yīng)用程序雖然支持通過配置相關(guān)文件來使用GPU，但是由于OpenStack架構(gòu)的原因，GPU不能被完全虛擬化，這導(dǎo)致GPU在云端的利用率極低。有鑒于此，吳博強(qiáng)在《基于OpenStack的GPU調(diào)度技術(shù)研究與實現(xiàn)》一文中提出了一種基于OpenStack的GPU調(diào)度方案，其在云端通過根據(jù)GPU工作狀態(tài)和用戶請求實現(xiàn)GPU負(fù)載均衡，有效地提高GPU的利用率和GPU工作的穩(wěn)定性，進(jìn)而實現(xiàn)了基于GPU加速OpenStack分布式處理框架。

然而，上述方法仍存在一些不可忽略的缺陷：第一，由于其沒有考慮單節(jié)點(diǎn)多GPU的情況以及通過細(xì)粒度的計算資源來調(diào)度GPU，因此無法充分利用多個GPU的計算資源來降低整個處理框架的運(yùn)行時間，進(jìn)而限制了整個OpenStack分布式處理框架的吞吐量；第二，由于其沒有考慮對GPU內(nèi)存的合理利用，因此會導(dǎo)致GPU的內(nèi)存利用率低；第三，由于其沒有考慮OpenStack分布式處理框架中數(shù)據(jù)傳輸帶寬對各個節(jié)點(diǎn)負(fù)載均衡的影響，因此該方法會增加負(fù)載均衡的時間開銷。

發(fā)明內(nèi)容

針對現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求，本發(fā)明提供了一種用于在虛擬分布式環(huán)境下實現(xiàn)多GPU調(diào)度的方法和系統(tǒng)，其目的在于，解決現(xiàn)有基于OpenStack的GPU調(diào)度方案由于沒有考慮單節(jié)點(diǎn)多GPU的情況以及通過細(xì)粒度的計算資源來調(diào)度GPU，導(dǎo)致無法充分利用多個GPU的計算資源來降低整個處理框架的運(yùn)行時間，進(jìn)而限制了整個OpenStack分布式處理框架的吞吐量的技術(shù)問題，以及由于沒有考慮對GPU內(nèi)存的合理利用，導(dǎo)致GPU的內(nèi)存利用率低的技術(shù)問題，以及由于沒有考慮OpenStack分布式處理框架中數(shù)據(jù)傳輸帶寬對各個節(jié)點(diǎn)負(fù)載均衡的影響，導(dǎo)致會增加負(fù)載均衡的時間開銷的技術(shù)問題。

為實現(xiàn)上述目的，按照本發(fā)明的一個方面，提供了一種用于在虛擬分布式異構(gòu)環(huán)境下實現(xiàn)多GPU調(diào)度的方法，其是應(yīng)用在包括一個控制節(jié)點(diǎn)和多個計算節(jié)點(diǎn)的OpenStack虛擬環(huán)境中，所述方法包括以下步驟：

(1)計算節(jié)點(diǎn)接收用戶創(chuàng)建的GPU任務(wù)；

(2)控制節(jié)點(diǎn)設(shè)置計數(shù)器i＝1；

(3)控制節(jié)點(diǎn)判斷i是否大于迭代次數(shù)閾值N，如果是則過程結(jié)束，否則進(jìn)入步驟(4)；

(4)控制節(jié)點(diǎn)判斷用戶創(chuàng)建GPU任務(wù)的計算節(jié)點(diǎn)自身是否帶有GPU，如果是轉(zhuǎn)入步驟(5)，否則轉(zhuǎn)入步驟(6)；

(5)控制節(jié)點(diǎn)判斷接收到GPU任務(wù)的計算節(jié)點(diǎn)是否擁有多個GPU，如果是轉(zhuǎn)入步驟(7)，否則直接以擁有單個GPU的計算節(jié)點(diǎn)的方式運(yùn)行一次該GPU任務(wù)，然后轉(zhuǎn)入步驟(14)；

(6)接收到GPU任務(wù)的計算節(jié)點(diǎn)將GPU任務(wù)發(fā)送到OpenStack環(huán)境中所有擁有GPU的計算節(jié)點(diǎn)，然后轉(zhuǎn)入步驟(8)；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南大學(xué)，未經(jīng)湖南大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011574923.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：鋼箱梁總拼胎架運(yùn)梁通道活動橫梁及其使用方法
下一篇：紙袋的袋把連接機(jī)構(gòu)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F9-00 程序控制裝置，例如，控制器
G06F9-02 .應(yīng)用有線連接的，例如，插頭板
G06F9-04 .應(yīng)用僅含程序指令的記錄載體的
G06F9-06 .應(yīng)用存入的程序的，即應(yīng)用處理設(shè)備的內(nèi)部存儲來接收程序并保持程序的
G06F9-22 ..微控制或微程序裝置
G06F9-30 ..執(zhí)行機(jī)器指令的裝置，例如指令譯碼

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】