[發明專利]基于tensorflow的多任務彈性調度方法及系統在審
| 申請號: | 202011456701.8 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112463340A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 李迅;周覃;張彥鐸;尹健南;王重九;崔恒 | 申請(專利權)人: | 武漢工程大學 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50;G06T1/20;G06N20/00 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 許美紅 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 tensorflow 任務 彈性 調度 方法 系統 | ||
1.一種基于tensorflow的多任務彈性調度方法,其特征在于,包括以下步驟:
S1:利用任務管理系統對進入集群中的任務進行預處理,允許集群中存在多個任務同時進行;
S2:從任務管理系統的配置文件中獲取集群中所有GPU資源數量,利用可用GPU數量為訓練任務劃分數據集,將每部分數據集劃分到指定GPU;
S3:在每個GPU上為任務彈性分配顯存資源,彈性擴展空閑GPU以提升訓練速度;
S4:在每部分數據集上完成梯度下降,獲得每部分的當前梯度;
S5:利用群集間的通信將梯度進行累加得到當前的總梯度;
S6:將總梯度廣播至每個GPU,再進行下一次梯度下降。
2.根據權利要求1所述的基于tensorflow的多任務彈性調度方法,其特征在于,步驟S1中,對加入到系統中的所有任務,任務管理程序依據關鍵字為每個任務生成一個特定的進程leader。
3.根據權利要求1所述的基于tensorflow的多任務彈性調度方法,其特征在于,步驟S2中,根據加入到任務中總GPU數量劃分數據集,每份數據集都不相同但數量一致并都能保證完成當前的梯度下降。
4.根據權利要求1所述的基于tensorflow的多任務彈性調度方法,其特征在于,步驟S3中,獲取分配的訓練機器數量和GPU數量,集群中的訓練機器稱為worker,以size參數標記所有GPU數量,以參數local_rank標記每個worker上的GPU,根據size=local_rank*worker,循環修改所有GPU顯存占比。
5.根據權利要求3所述的基于tensorflow的多任務彈性調度方法,其特征在于,當多任務加入到集群中之后,計劃整體的資源分配,對于先頭作業,集群屬于空載,任務管理系統相應提升顯存用量,當集群逐漸滿載,任務管理系統則自適應降低顯存分配,直到滿載時無法為作業申請顯存。
6.根據權利要求3所述的基于tensorflow的多任務彈性調度方法,其特征在于,在訓練作業初始時,程序會進入train入口正常進行訓練,新的GPU加入時,作業將暫停;由于集群的特性,每次梯度下降,最新的檢查點checkpoint默認保存在第一個worker0節點,將最新的模型參數廣播至所有worker,然后程序會進入到斷點入口breakpoint,此時所有的GPU節點都將延續使用最新的模型參數,并不會影響梯度的下降。
7.根據權利要求1所述的方法,其特征在于,所述方法中:每N個worker節點與其他兩個worker節點通信2*(N-1)次;在通信的過程中,一個節點接收并發送數據緩沖區傳來的塊,在第一個N-1迭代中,接收的值被添加到節點緩沖區中,在第二個N-1迭代中,接收的值代替數據緩沖區中的值,其中N為大于1的整數。
8.根據權利要求1所述的方法,其特征在于,步驟S4中:將數據集下載到每個GPU中,完成一次計算,每個GPU都有一個梯度值,每次只與相鄰訓練機器worker進行梯度累加;N-1次之后完成所有梯度的累加;再將梯度同步到所有節點, N-1次完成所有節點同步,即完成一次梯度下降,反復這個過程,直到損失函數收斂完成訓練。
9.一種基于tensorflow的多任務彈性調度方法及系統,其特征在于,包括:
作業管理模塊,利用任務管理系統對進入集群中的任務進行預處理,允許集群中存在多個任務同時進行;
數據集分組模塊,用于從任務管理系統的配置文件中獲取集群中所有GPU資源數量,利用可用GPU數量為訓練任務劃分數據集,將每部分數據集劃分到指定GPU;
GPU擴展模塊,用于在每個GPU上為任務彈性分配顯存資源,彈性擴展空閑GPU以提升訓練速度;
同步累加模塊,用于在每部分數據集上完成梯度下降,獲得每部分的當前梯度;利用群集間的通信將梯度進行累加得到當前的總梯度;將總梯度廣播至每個GPU,再進行下一次梯度下降。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至8中任一項所述基于tensorflow的多任務彈性調度方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢工程大學,未經武漢工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011456701.8/1.html,轉載請聲明來源鉆瓜專利網。





