[發(fā)明專利]用于在虛擬分布式異構(gòu)環(huán)境下實現(xiàn)多GPU調(diào)度的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011574923.X | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112612613B | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計)人: | 李肯立;劉園春;唐卓;郭耀蓮;宋瑩潔;羅文明;陽王東;曹嶸暉;肖國慶;劉楚波;周旭 | 申請(專利權(quán))人: | 湖南大學(xué) |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/54 |
| 代理公司: | 武漢臻誠專利代理事務(wù)所(普通合伙) 42233 | 代理人: | 宋業(yè)斌 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 虛擬 分布式 環(huán)境 實現(xiàn) gpu 調(diào)度 方法 系統(tǒng) | ||
本發(fā)明公開了一種虛擬分布式異構(gòu)環(huán)境下實現(xiàn)多GPU調(diào)度的方法,其根據(jù)OpenStack創(chuàng)建的虛擬環(huán)境下的GPU集群,將GPU本地任務(wù)劃分為更細(xì)粒度的GPU本地子任務(wù),然后根據(jù)數(shù)據(jù)本地性以及從節(jié)點(diǎn)上所有GPU的流狀態(tài)和內(nèi)存資源狀態(tài)將GPU本地子任務(wù)調(diào)度到指定GPU上執(zhí)行,并對超過GPU硬件工作隊列數(shù)量的CUDA流進(jìn)一步調(diào)整主機(jī)調(diào)度任務(wù)的順序消除“虛假依賴”,以及對機(jī)器學(xué)習(xí)/深度學(xué)習(xí)每次迭代產(chǎn)生的中間數(shù)據(jù)進(jìn)一步處理來提高GPU內(nèi)存利用率從而充分平衡各個GPU上的工作負(fù)載,降低OpenStack創(chuàng)建的虛擬環(huán)境下GPU應(yīng)用程序的執(zhí)行時間。本發(fā)明能解決現(xiàn)有分布式異構(gòu)OpenStack處理框架創(chuàng)建的多GPU環(huán)境中存在的吞吐量低、無法有效利用多個GPU、以及由于缺乏有效GPU負(fù)載均衡策略導(dǎo)致時間開銷大的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明屬于分布式、高性能計算技術(shù)領(lǐng)域,更具體地,涉及一種用于在虛擬分布式環(huán)境下實現(xiàn)多GPU調(diào)度的方法和系統(tǒng)。
背景技術(shù)
OpenStack是分布式應(yīng)用程序,其具有豐富的數(shù)據(jù)并行性和任務(wù)并行性,也適用于GPU加速。因此,將GPU集成到OpenStack分布式處理框架中可以大大提高性能。
目前,開源版本的OpenStack應(yīng)用程序雖然支持通過配置相關(guān)文件來使用GPU,但是由于OpenStack架構(gòu)的原因,GPU不能被完全虛擬化,這導(dǎo)致GPU在云端的利用率極低。有鑒于此,吳博強(qiáng)在《基于OpenStack的GPU調(diào)度技術(shù)研究與實現(xiàn)》一文中提出了一種基于OpenStack的GPU調(diào)度方案,其在云端通過根據(jù)GPU工作狀態(tài)和用戶請求實現(xiàn)GPU負(fù)載均衡,有效地提高GPU的利用率和GPU工作的穩(wěn)定性,進(jìn)而實現(xiàn)了基于GPU加速OpenStack分布式處理框架。
然而,上述方法仍存在一些不可忽略的缺陷:第一,由于其沒有考慮單節(jié)點(diǎn)多GPU的情況以及通過細(xì)粒度的計算資源來調(diào)度GPU,因此無法充分利用多個GPU的計算資源來降低整個處理框架的運(yùn)行時間,進(jìn)而限制了整個OpenStack分布式處理框架的吞吐量;第二,由于其沒有考慮對GPU內(nèi)存的合理利用,因此會導(dǎo)致GPU的內(nèi)存利用率低;第三,由于其沒有考慮OpenStack分布式處理框架中數(shù)據(jù)傳輸帶寬對各個節(jié)點(diǎn)負(fù)載均衡的影響,因此該方法會增加負(fù)載均衡的時間開銷。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種用于在虛擬分布式環(huán)境下實現(xiàn)多GPU調(diào)度的方法和系統(tǒng),其目的在于,解決現(xiàn)有基于OpenStack的GPU調(diào)度方案由于沒有考慮單節(jié)點(diǎn)多GPU的情況以及通過細(xì)粒度的計算資源來調(diào)度GPU,導(dǎo)致無法充分利用多個GPU的計算資源來降低整個處理框架的運(yùn)行時間,進(jìn)而限制了整個OpenStack分布式處理框架的吞吐量的技術(shù)問題,以及由于沒有考慮對GPU內(nèi)存的合理利用,導(dǎo)致GPU的內(nèi)存利用率低的技術(shù)問題,以及由于沒有考慮OpenStack分布式處理框架中數(shù)據(jù)傳輸帶寬對各個節(jié)點(diǎn)負(fù)載均衡的影響,導(dǎo)致會增加負(fù)載均衡的時間開銷的技術(shù)問題。
為實現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種用于在虛擬分布式異構(gòu)環(huán)境下實現(xiàn)多GPU調(diào)度的方法,其是應(yīng)用在包括一個控制節(jié)點(diǎn)和多個計算節(jié)點(diǎn)的OpenStack虛擬環(huán)境中,所述方法包括以下步驟:
(1)計算節(jié)點(diǎn)接收用戶創(chuàng)建的GPU任務(wù);
(2)控制節(jié)點(diǎn)設(shè)置計數(shù)器i=1;
(3)控制節(jié)點(diǎn)判斷i是否大于迭代次數(shù)閾值N,如果是則過程結(jié)束,否則進(jìn)入步驟(4);
(4)控制節(jié)點(diǎn)判斷用戶創(chuàng)建GPU任務(wù)的計算節(jié)點(diǎn)自身是否帶有GPU,如果是轉(zhuǎn)入步驟(5),否則轉(zhuǎn)入步驟(6);
(5)控制節(jié)點(diǎn)判斷接收到GPU任務(wù)的計算節(jié)點(diǎn)是否擁有多個GPU,如果是轉(zhuǎn)入步驟(7),否則直接以擁有單個GPU的計算節(jié)點(diǎn)的方式運(yùn)行一次該GPU任務(wù),然后轉(zhuǎn)入步驟(14);
(6)接收到GPU任務(wù)的計算節(jié)點(diǎn)將GPU任務(wù)發(fā)送到OpenStack環(huán)境中所有擁有GPU的計算節(jié)點(diǎn),然后轉(zhuǎn)入步驟(8);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南大學(xué),未經(jīng)湖南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011574923.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)





