[發明專利]一種基于速度預測的深度學習任務的調度方法在審

申請號：	202010068852.X	申請日：	2020-01-21
公開（公告）號：	CN111274036A	公開（公告）日：	2020-06-12
發明（設計）人：	曹春;馬曉星;徐經緯;李青坪	申請（專利權）人：	南京大學
主分類號：	G06F9/50	分類號：	G06F9/50;G06F9/455;G06N3/063
代理公司：	南京樂羽知行專利代理事務所(普通合伙) 32326	代理人：	李玉平
地址：	210046 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于速度預測深度學習任務調度方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1. 一種基于速度預測的深度學習任務的調度方法，其特征在于，包括速度模型構建階段和任務調度階段兩部分：

速度模型構建階段

（1）速度模型數據集構建：利用任務在集群中訓練的狀態，獲取任務訓練速度，為訓練速度模型做準備；

（2）速度模型的實現：建立基于深度學習的速度模型的訓練器，訓練器的輸入數據為前一步構造的數據集，輸出為任務的訓練速度；

任務調度階段

（1）資源分配與任務放置：調度器將資源分配和任務放置結合考慮，通過速度模型預測每個任務在不同配置下的訓練速度，來為每個任務決定最佳的配置，從而達到有效利用集群資源的目的；其中不同配置即不同資源分配量和放置節點；

（2）任務運行：調度器為每個任務計算好配置后，將任務調度到集群中運行，同時監控任務運行狀態。

2.如權利要求1所述的基于速度預測的深度學習任務的調度方法，其特征在于，速度模型構建階段的速度模型數據集構建的實現中：任務在集群中運行會有不同的配置，其訓練速度也會不同；根據任務在集群中所有可能的運行配置，采樣得到不同配置下任務的訓練速度，從而構造數據集。

3. 如權利要求1所述的基于速度預測的深度學習任務的調度方法，其特征在于，基于任務在集群中運行的不同配置，得到速度模型的特征，作為速度模型訓練器的輸入特征；該方法采用的分布式深度學習的參數同步架構是參數服務器架構，速度模型的特征包含參數服務器（PS）的個數、計算節點（Worker）的個數、任務使用的模型類型、batch size、Worker在節點上的放置以及節點上已運行的其他任務的數目；速度模型基于深度學習，構造兩層全連接網絡來預測任務的訓練速度。

4. 如權利要求1所述的基于速度預測的深度學習任務的調度方法，其特征在于，速度模型構建階段的速度模型的實現中：采用Tensorflow Keras深度學習框架，構建一個Sequential模型，搭建兩層全連接網絡模型；該模型的輸入為數據集中每一個樣本，樣本特征以一組向量的形式輸入，模型的標簽為任務的訓練速度。

5.如權利要求4所述的基于速度預測的深度學習任務的調度方法，其特征在于，模型通過反向傳播算法循環迭代，使用Adam作為優化器，使得模型在測試數據集上輸出的速度預測值和真實值之間的誤差水平在預期范圍內，從而完成深度學習的訓練過程。

6.如權利要求1所述的基于速度預測的深度學習任務的調度方法，其特征在于，任務調度階段的資源分配與任務放置的實現中：構造任務隊列，用戶提交的任務都置于任務隊列中等待調度；每個調度周期開始時，調度器從調度隊列中取出所有任務，并為它們生成初始配置，包括為每個任務分配PS和Worker，以及將分配好的任務生成一組初始放置節點；然后調度器開始調整每個任務的配置，使用定制化的模擬退火算法對每個任務的配置進行調整，使得每個任務都能以較快的速度進行訓練，目標是使得所有任務的平均完成時間越短越好。

7.如權利要求6所述的基于速度預測的深度學習任務的調度方法，其特征在于，初始配置的生成的實現中：初始的時候為每一個任務分配一個PS和一個Worker，每個PS和Worker會占用CPU、GPU和內存資源，直到所有任務都分配到一個PS和一個Worker，或者集群中剩余的資源數目不足為止。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于南京大學，未經南京大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010068852.X/1.html，轉載請聲明來源鉆瓜專利網。