[發明專利]一種分布式深度學習任務混部后的性能預測方法有效
| 申請號: | 202011024461.4 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112162791B | 公開(公告)日: | 2022-12-30 |
| 發明(設計)人: | 趙來平;丁紫薇;李克秋 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F9/445 | 分類號: | G06F9/445;G06F9/50;G06N20/00 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 韓帥 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 深度 學習 任務 混部后 性能 預測 方法 | ||
本發明公開一種分布式深度學習任務混部后的性能預測方法,包括如下步驟:所述任務刻畫模塊收集分布式GPU深度學習任務中所有混部的應用單獨運行時的性能指標、單獨訓練時間以及多應用混部時位置和時間關系的數據信息;所述過濾模塊對所述任務刻畫模塊中混部單獨運行時的性能指標、單獨訓練時間和位置、時間數據進行篩選生成混部任務組合數據信息;所述性能預測模塊對混部任務組合數據信息進行編碼輸入,通過預測到的干擾狀態下總體完成時間得到任務混部干擾程度;本發明綜合考慮了分布式GPU任務混部不同任務后干擾不同,任務混部之間的不同位置關系和不同時間關系對GPU任務的性能影響不同等因素,可以適用于多任務混部的性能預測。
技術領域
本發明涉及大數據中分布式訓練任務的預測分配技術領域,尤其涉及一種分布式深度學習任務混部后的性能預測方法。
背景技術
近年來,隨著每個深度學習應用的數據量的急劇增加,以及計算復雜度和模型參數的增加,分布式機器學習應運而生。分布式機器學習主要運行在大規模集群上,訓練任務的時間跨度較大,從幾分鐘到幾天不等,在訓練時間內,特別是對于長時間的GPU分布式任務,我們應該合理的安排集群中任務訓練的時間。因此,有必要提前進行性能預測,預測分布式任務的執行時間。
通過性能預測,可以合理的安排集群中的任務,避免分布式任務受到較大的干擾的同時可以增加GPU的利用率。目前已經有很多工作研究了任務性能預測問題,但大部分工作是在CPU上,GPU上的性能預測大多數是針對單機任務,而針對分布式任務的性能預測,只包括任務單獨運行情況下的預測,沒有對分布式任務混部下的干擾預測,沒有考慮分布式任務在混部場景下由于混部位置不同等因素造成的干擾不同。
我們針對這些問題提出了一個性能干擾預測模型,是一個靈活,有效,適用性高的針對GPU深度學習任務混部情況下的性能干擾預測模型,可以預測出在GPU空分共享環境下受到單節點任務,分布式任務或者多個任務影響的分布式任務的完成時間的模型,不需要多個模型分別預測,準確度很高,復雜度很低,時間開銷較小。該預測模型考慮了運行時混部應用影響性能的性能指標,如GPU利用率和顯存使用率等,將混部任務單獨運行時的資源特征,混部任務間的位置關系和時間關系,以及混部任務不加干擾下的訓練時間等數據作為本模型的輸入數據,就可以來預測分布式任務在混部情況下受干擾后的完成時間。
發明內容
本發明旨在解決混部情況下分布式訓練任務的干擾問題,通過綜合考慮硬件資源異構性、計算精度、位置關系、時間關系等因素,預測干擾后分布式任務的完成時間,從而最小化混部干擾。
為了解決現有技術中存在的技術問題,本發明采用如下技術方案實施:
一種分布式環境針對深度學習訓練模型的性能預測方法,由任務刻畫模塊、過濾模塊和性能預測模塊三個部分組成,包括如下步驟:
所述任務刻畫模塊收集GPU深度學習任務中所有混部的應用單獨運行時的性能指標、單獨訓練時間以及多應用混部時位置和時間關系的數據信息;
所述過濾模塊對所述任務刻畫模塊中混部單獨運行時的性能指標、單獨訓練時間和混部位置、時間數據進行篩選生成混部任務組合數據信息;
所述性能預測模塊對混部任務組合數據信息進行編碼輸入,通過預測到的干擾狀態下總體完成時間得到任務混部干擾程度。
進一步,所述任務刻畫模塊生成混合任務組合的數據信息步驟為:
S1、使用kubernetes框架將多個服務器創建成一個集群,實現混部在同一組GPU上;
S2、在創建的集群上不加干擾地單獨運行混部任務,監測即將混部的任務單獨運行時的資源使用情況,收集與性能相關的性能指標和任務單獨運行時的訓練時間;
S3、當多任務混部導致任務干擾的情況下,記錄任務混部下的位置關系和時間關系,并收集這種位置關系和時間關系下任務受到干擾后的訓練時間;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011024461.4/2.html,轉載請聲明來源鉆瓜專利網。





