[發明專利]基于tensorflow的多任務彈性調度方法及系統在審
| 申請號: | 202011456701.8 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112463340A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 李迅;周覃;張彥鐸;尹健南;王重九;崔恒 | 申請(專利權)人: | 武漢工程大學 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50;G06T1/20;G06N20/00 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 許美紅 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 tensorflow 任務 彈性 調度 方法 系統 | ||
本發明公開了一種基于tensorflow的多任務彈性調度方法及系統,其中方法包括以下步驟:利用任務管理系統對進入集群中的任務進行預處理,允許集群中存在多個任務同時進行;從任務管理系統的配置文件中獲取集群中所有GPU資源數量,利用可用GPU數量為訓練任務劃分數據集,將每部分數據集劃分到指定GPU;在每個GPU上為任務彈性分配顯存資源,彈性擴展空閑GPU以提升訓練速度;在每部分數據集上完成梯度下降,獲得每部分的當前梯度;利用群集間的通信將梯度進行累加得到當前的總梯度;將總梯度廣播至每個GPU,再進行下一次梯度下降。本發明能夠彈性的調度多任務進入到集群中,利用集群已有資源高效的完成分布式計算。
技術領域
本發明屬于計算機技術領域,具體地涉及一種基于tensorflow的多任務彈性調度方法及系統。
背景技術
深度學習作為機器學習領域的一個重要分支,在近年來得到了工業界及學術界的高度關注,并且取得了令人矚目的發展,在機器視覺、語音識別等領域得到了廣泛應用。但是,海量的訓練數據、超大規模的模型給深度學習帶來了日益嚴峻的挑戰,分布式深度學習應運而生,逐漸成為應對這一挑戰的有效手段。
google公司開發了MapReduce系統,在處理大規模數據的分布式訓練上取得了一定的成果,該框架實現了高效的處理大規模數據的能力,但是其在深度學習訓練方面能力不足。由于此系統并沒有開源,因此針對MapReduce有了許多開源實現,其中最成功的是Apache Hadpoo,但是該系統遠不及MapReduce的性能。Berkeley開發了Apache Spark,這種框架擁有著良好的容錯能力,不僅在數據處理方面,在深度學習訓練上也有不錯的性能,但是它采用的同步訓練方式,有著較高的通信損失。近幾年,uber公司研究多種深度學習訓練集群(MapReduce、Apache Spark、ring-Allreduce等),提出一種深度學習系統Horovod,它在降低通信損失,簡化框架搭建上取得了極大地進步,在多GPU多節點上高效率的完成了訓練任務。在另一篇論文中以Horovod為參照,在worker節點和訓練機器之間添加一層結構(EDL),實現多租戶彈性控制訓練集群。它引入了多租戶和彈性調度的思想,但是其從集群內部展開的方式會改變集群的構成,這樣使用者難以深入的去進行調整,同時可能會產生某些程序性錯誤,增加不必要的麻煩,可用性較低。
發明內容
本發明的目的在于,提供一種能夠利用有限資源,去做更多的訓練,使更多的用戶加入到訓練中來基于tensorflow的多任務彈性調度方法及系統,
本發明為達上述目的所采用的技術方案是:
提供一種基于tensorflow的多任務彈性調度方法,其特征在于,包括以下步驟:
S1:利用任務管理系統對進入集群中的任務進行預處理,允許集群中存在多個任務同時進行;
S2:從任務管理系統的配置文件中獲取集群中所有GPU資源數量,利用可用GPU數量為訓練任務劃分數據集,將每部分數據集劃分到指定GPU;
S3:在每個GPU上為任務彈性分配顯存資源,彈性擴展空閑GPU以提升訓練速度;
S4:在每部分數據集上完成梯度下降,獲得每部分的當前梯度;
S5:利用群集間的通信將梯度進行累加得到當前的總梯度;
S6:將總梯度廣播至每個GPU,再進行下一次梯度下降。
接上述技術方案,步驟S1中,對加入到系統中的所有任務,任務管理程序依據關鍵字為每個任務生成一個特定的進程leader。
接上述技術方案,根據加入到任務中總GPU數量劃分數據集,每份數據集都不相同但數量一致并都能保證完成當前的梯度下降。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢工程大學,未經武漢工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011456701.8/2.html,轉載請聲明來源鉆瓜專利網。





